Programa de Aprendizaje por Refuerzo
Descubre cómo los agentes inteligentes aprenden a tomar decisiones óptimas mediante interacción directa con su entorno. Un camino estructurado desde fundamentos hasta aplicaciones reales.
Fundamentos de RL
Empezamos con procesos de decisión de Markov y ecuaciones de Bellman. Aquí construyes la base teórica que necesitas para entender cómo funciona todo el sistema.
8 semanasMétodos Tabulares
Q-learning y SARSA en entornos discretos. Trabajas con grillas simples donde cada estado cabe en una tabla, perfecto para empezar a programar tus primeros agentes.
6 semanasAproximación de Funciones
Cuando las tablas ya no alcanzan, aprendes a usar redes neuronales para estimar valores. Deep Q-Networks y sus variantes más estables como Double DQN.
10 semanasPolicy Gradient
Métodos que optimizan directamente la política de acción. REINFORCE, Actor-Critic, y A3C para problemas con acciones continuas o espacios muy grandes.
9 semanasMétodos Avanzados
PPO, TRPO, y SAC. Las técnicas que actualmente dominan benchmarks difíciles. También tocamos model-based RL y planificación Monte Carlo.
12 semanasProyecto Final
Implementas un agente completo para un problema real. Puede ser robótica simulada, trading algorítmico, o control de sistemas. Tú eliges según tus intereses.
6 semanasCómo Aprenderás
Teoría Aplicada
Videos cortos con conceptos matemáticos explicados visualmente. Nada de fórmulas sin contexto.
Código en Vivo
Construyes algoritmos desde cero. Ver cómo falla el agente te enseña más que mil slides perfectos.
Experimentos Guiados
Modificas hiperparámetros y observas qué pasa. Así desarrollas intuición sobre qué ajustar en cada caso.
Revisión Entre Pares
Compartes tu código con otros estudiantes. Las mejores soluciones suelen venir de ver enfoques diferentes.
Lo Que Lograrás
- Implementar agentes de RL desde cero en Python usando NumPy y PyTorch
- Entender cuándo usar value-based vs policy-based methods según el problema
- Debuggear entrenamientos que no convergen o producen comportamientos extraños
- Leer papers recientes de RL y reproducir sus resultados en tu máquina
- Aplicar técnicas de exploration-exploitation en contextos industriales
- Diseñar funciones de recompensa que realmente incentiven el comportamiento deseado
Instructores
Luka Petrović
Fundamentos & Q-Learning
Siobhan MacLeod
Deep RL & DQN
Dimitrios Papadakis
Policy Gradients
Ailbhe O'Sullivan
Métodos Avanzados
Sistema de Progreso
Cada algoritmo que implementas suma puntos de experiencia. Cuando completas módulos enteros, desbloqueas proyectos bonus y datasets especiales.
Los desafíos semanales te ponen a competir en leaderboards públicos. No es obligatorio participar, pero ver tu agente escalar posiciones motiva bastante.
Incluye:
Badges por milestone Rankings mensuales Challenges opcionales Proyectos desbloqueables
Experiencias de Estudiantes
Los ejercicios de debugging fueron lo más valioso para mí. Aprendes más arreglando código roto que escribiendo uno nuevo desde cero. Ahora puedo identificar problemas de convergencia en minutos.
Me gustó que cada concepto teórico viene seguido de código inmediatamente. No hay esa sensación de estudiar matemáticas abstractas sin saber para qué sirven. Todo tiene aplicación práctica visible.
Comienza Tu Formación
El programa está abierto para inscripción. Puedes empezar con el módulo de fundamentos y avanzar a tu ritmo. Acceso completo a todos los materiales durante 12 meses.