Kelomirent
Horario: Lun - Vie, 9:00 - 18:00

Programa de Aprendizaje por Refuerzo

Descubre cómo los agentes inteligentes aprenden a tomar decisiones óptimas mediante interacción directa con su entorno. Un camino estructurado desde fundamentos hasta aplicaciones reales.

Fundamentos de RL

Empezamos con procesos de decisión de Markov y ecuaciones de Bellman. Aquí construyes la base teórica que necesitas para entender cómo funciona todo el sistema.

8 semanas

Métodos Tabulares

Q-learning y SARSA en entornos discretos. Trabajas con grillas simples donde cada estado cabe en una tabla, perfecto para empezar a programar tus primeros agentes.

6 semanas

Aproximación de Funciones

Cuando las tablas ya no alcanzan, aprendes a usar redes neuronales para estimar valores. Deep Q-Networks y sus variantes más estables como Double DQN.

10 semanas

Policy Gradient

Métodos que optimizan directamente la política de acción. REINFORCE, Actor-Critic, y A3C para problemas con acciones continuas o espacios muy grandes.

9 semanas

Métodos Avanzados

PPO, TRPO, y SAC. Las técnicas que actualmente dominan benchmarks difíciles. También tocamos model-based RL y planificación Monte Carlo.

12 semanas

Proyecto Final

Implementas un agente completo para un problema real. Puede ser robótica simulada, trading algorítmico, o control de sistemas. Tú eliges según tus intereses.

6 semanas

Cómo Aprenderás

1

Teoría Aplicada

Videos cortos con conceptos matemáticos explicados visualmente. Nada de fórmulas sin contexto.

2

Código en Vivo

Construyes algoritmos desde cero. Ver cómo falla el agente te enseña más que mil slides perfectos.

3

Experimentos Guiados

Modificas hiperparámetros y observas qué pasa. Así desarrollas intuición sobre qué ajustar en cada caso.

4

Revisión Entre Pares

Compartes tu código con otros estudiantes. Las mejores soluciones suelen venir de ver enfoques diferentes.

Lo Que Lograrás

  • Implementar agentes de RL desde cero en Python usando NumPy y PyTorch
  • Entender cuándo usar value-based vs policy-based methods según el problema
  • Debuggear entrenamientos que no convergen o producen comportamientos extraños
  • Leer papers recientes de RL y reproducir sus resultados en tu máquina
  • Aplicar técnicas de exploration-exploitation en contextos industriales
  • Diseñar funciones de recompensa que realmente incentiven el comportamiento deseado
Estudiante trabajando con algoritmos de aprendizaje por refuerzo en computadora

Instructores

Retrato profesional de Luka Petrović
Luka Petrović

Fundamentos & Q-Learning

Retrato profesional de Siobhan MacLeod
Siobhan MacLeod

Deep RL & DQN

Retrato profesional de Dimitrios Papadakis
Dimitrios Papadakis

Policy Gradients

Retrato profesional de Ailbhe O'Sullivan
Ailbhe O'Sullivan

Métodos Avanzados

Sistema de Progreso

Cada algoritmo que implementas suma puntos de experiencia. Cuando completas módulos enteros, desbloqueas proyectos bonus y datasets especiales.

Los desafíos semanales te ponen a competir en leaderboards públicos. No es obligatorio participar, pero ver tu agente escalar posiciones motiva bastante.

Incluye:
Badges por milestone Rankings mensuales Challenges opcionales Proyectos desbloqueables
Plataforma de aprendizaje mostrando sistema de progreso gamificado

Experiencias de Estudiantes

Los ejercicios de debugging fueron lo más valioso para mí. Aprendes más arreglando código roto que escribiendo uno nuevo desde cero. Ahora puedo identificar problemas de convergencia en minutos.

Estudiante Tomasz Kowalczyk
Tomasz Kowalczyk

Completó módulo avanzado

Me gustó que cada concepto teórico viene seguido de código inmediatamente. No hay esa sensación de estudiar matemáticas abstractas sin saber para qué sirven. Todo tiene aplicación práctica visible.

Estudiante Aisling Brennan
Aisling Brennan

Proyecto final en robótica

Comienza Tu Formación

El programa está abierto para inscripción. Puedes empezar con el módulo de fundamentos y avanzar a tu ritmo. Acceso completo a todos los materiales durante 12 meses.

Este espacio educativo registra preferencias de navegación. Aplicamos criterios mínimos de análisis para mejorar tu experiencia en nuestras instalaciones digitales.