Forum

Avisos
Vaciar todo

Políticas y actualización del contexto  

  RSS

img-perfil
(@giani-carlevaro)
Admin
Registrado: hace 4 años
Respuestas: 69
19/01/2021 3:47 am  

Hola, estoy perdido, no sé si voy avanzando, cada vez veo que me falta más por entender. Creo el problema es que no me actualiza las políticas, por lo que vi los rewards, el ratio de exploración, explorar y explotar funcionan correctamente en base a lo comentado en la clase de consulta, creo que en la política es que se trabaja con los pares de acciones pero no está aprendiendo de la red, no me queda clara la implementación de Bellman dentro del DQN, es necesario nos centremos en la parte de matemática?

Interpreto que lo que hay que lograr es que la política tendría que ver cómo cargarle la observación o nuevo contexto para que entrene porque siempre mantiene el mismo, en base a esto creo que lo que me está fallando son los pares de acciones al dar el siguiente estado no cambia, pero me marea select_action con esta función no se por dónde seguir para utilizarla he implementar que actualice el par estado, acción y que vaya entrenando. No sé si voy bien rumbeado o mejor vuelvo a leer teórico?

Gracias!


Citar
img-perfil
(@martin-zanoniani)
Registrado: hace 5 años
Respuestas: 1
19/01/2021 3:06 pm  
Hola Giani
La función select_action, evalúa la red de política para obtener la acción recomendada en cada momento del juego, no lo hace de manera lineal, sino que al principio es aleatorio, y se va poniendo menos aleatoria en tanto pasan las partidas, esto es controlado por EPS_END y EPS_START
 
Entiendo que select_action te da la misma acción siempre, esto quiere decir que tu modelo considera que la mejor acción es siempre la misma, esto se puede deber a muchas cosas, cosas que puede chequear:
 
1. que la entrada de la red cambie, sucede que si no se selecciona 1(fire) la primera vez, la pantalla es siempre la misma, la de inicio del juego, el colab tiene en cuenta eso, revisa que tu código también lo haga.
2. se puede jugar con el parámetro GAMMA, que indica que tanto valora tu modelo un reward futuro, creo que para el juego del desafío, el reward viene luego de que la pelotita rebote y rompa un bloque, lo cual son bastantes pasos! aca esta explicado correctamente: https://stackoverflow.com/questions/54334315/what-is-the-full-meaning-of-the-discount-factor-%25CE%25B3-gamma-in-reinforcement-learn&source=gmail&ust=1611164831775000&usg=AFQjCNFVET6YaUfGF8qdMzbFFZwM2DwC_ A"> https://stackoverflow.com/questions/54334315/what-is-the-full-meaning-of-the-discount-factor-γ-gamma-in-reinforcement-learn
 
Es necesario nos centremos en la parte de matemática?
 
No es necesario, pero el desafío esta abierto a que puedan implementar cualquier algoritmo que quieran o inventen!. La ecuación de Bellman fue tomado del siguiente tutorial:
 
 
Aquí hay otro muy similar en tensorflow:
 
Al final del colab hay mas links que pueden ser útiles.
 
Saludos!

ResponderCitar