Programa de Aprendizaje por Refuerzo

Descubre cómo los agentes inteligentes aprenden a tomar decisiones óptimas mediante interacción directa con su entorno. Un camino estructurado desde fundamentos hasta aplicaciones reales.

Fundamentos de RL

Empezamos con procesos de decisión de Markov y ecuaciones de Bellman. Aquí construyes la base teórica que necesitas para entender cómo funciona todo el sistema.

8 semanas

Métodos Tabulares

Q-learning y SARSA en entornos discretos. Trabajas con grillas simples donde cada estado cabe en una tabla, perfecto para empezar a programar tus primeros agentes.

6 semanas

Aproximación de Funciones

Cuando las tablas ya no alcanzan, aprendes a usar redes neuronales para estimar valores. Deep Q-Networks y sus variantes más estables como Double DQN.

10 semanas

Policy Gradient

Métodos que optimizan directamente la política de acción. REINFORCE, Actor-Critic, y A3C para problemas con acciones continuas o espacios muy grandes.

9 semanas

Métodos Avanzados

PPO, TRPO, y SAC. Las técnicas que actualmente dominan benchmarks difíciles. También tocamos model-based RL y planificación Monte Carlo.

12 semanas

Proyecto Final

Implementas un agente completo para un problema real. Puede ser robótica simulada, trading algorítmico, o control de sistemas. Tú eliges según tus intereses.

6 semanas

Cómo Aprenderás

Teoría Aplicada

Videos cortos con conceptos matemáticos explicados visualmente. Nada de fórmulas sin contexto.

Código en Vivo

Construyes algoritmos desde cero. Ver cómo falla el agente te enseña más que mil slides perfectos.

Experimentos Guiados

Modificas hiperparámetros y observas qué pasa. Así desarrollas intuición sobre qué ajustar en cada caso.

Revisión Entre Pares

Compartes tu código con otros estudiantes. Las mejores soluciones suelen venir de ver enfoques diferentes.

Lo Que Lograrás

Implementar agentes de RL desde cero en Python usando NumPy y PyTorch
Entender cuándo usar value-based vs policy-based methods según el problema
Debuggear entrenamientos que no convergen o producen comportamientos extraños
Leer papers recientes de RL y reproducir sus resultados en tu máquina
Aplicar técnicas de exploration-exploitation en contextos industriales
Diseñar funciones de recompensa que realmente incentiven el comportamiento deseado

Estudiante trabajando con algoritmos de aprendizaje por refuerzo en computadora

Instructores

Luka Petrović

Fundamentos & Q-Learning

Siobhan MacLeod

Deep RL & DQN

Dimitrios Papadakis

Policy Gradients

Ailbhe O'Sullivan

Métodos Avanzados

Sistema de Progreso

Cada algoritmo que implementas suma puntos de experiencia. Cuando completas módulos enteros, desbloqueas proyectos bonus y datasets especiales.

Los desafíos semanales te ponen a competir en leaderboards públicos. No es obligatorio participar, pero ver tu agente escalar posiciones motiva bastante.

Incluye:

Badges por milestone Rankings mensuales Challenges opcionales Proyectos desbloqueables

Plataforma de aprendizaje mostrando sistema de progreso gamificado

Experiencias de Estudiantes

Los ejercicios de debugging fueron lo más valioso para mí. Aprendes más arreglando código roto que escribiendo uno nuevo desde cero. Ahora puedo identificar problemas de convergencia en minutos.

Tomasz Kowalczyk

Completó módulo avanzado

Me gustó que cada concepto teórico viene seguido de código inmediatamente. No hay esa sensación de estudiar matemáticas abstractas sin saber para qué sirven. Todo tiene aplicación práctica visible.

Aisling Brennan

Proyecto final en robótica

Comienza Tu Formación

El programa está abierto para inscripción. Puedes empezar con el módulo de fundamentos y avanzar a tu ritmo. Acceso completo a todos los materiales durante 12 meses.

Solicitar Información