Hola, estoy perdido, no sé si voy avanzando, cada vez veo que me falta más por entender. Creo el problema es que no me actualiza las políticas, por lo que vi los rewards, el ratio de exploración, explorar y explotar funcionan correctamente en base a lo comentado en la clase de consulta, creo que en la política es que se trabaja con los pares de acciones pero no está aprendiendo de la red, no me queda clara la implementación de Bellman dentro del DQN, es necesario nos centremos en la parte de matemática?
Interpreto que lo que hay que lograr es que la política tendría que ver cómo cargarle la observación o nuevo contexto para que entrene porque siempre mantiene el mismo, en base a esto creo que lo que me está fallando son los pares de acciones al dar el siguiente estado no cambia, pero me marea select_action con esta función no se por dónde seguir para utilizarla he implementar que actualice el par estado, acción y que vaya entrenando. No sé si voy bien rumbeado o mejor vuelvo a leer teórico?
Gracias!
Es necesario nos centremos en la parte de matemática?