Políticas y actualización del contexto

Último Mensaje

RSS

giani.carlevaro

(@giani-carlevaro)

Admin

Registrado: hace 4 años

Respuestas: 54

19/01/2021 3:47 am

Hola, estoy perdido, no sé si voy avanzando, cada vez veo que me falta más por entender. Creo el problema es que no me actualiza las políticas, por lo que vi los rewards, el ratio de exploración, explorar y explotar funcionan correctamente en base a lo comentado en la clase de consulta, creo que en la política es que se trabaja con los pares de acciones pero no está aprendiendo de la red, no me queda clara la implementación de Bellman dentro del DQN, es necesario nos centremos en la parte de matemática?

Interpreto que lo que hay que lograr es que la política tendría que ver cómo cargarle la observación o nuevo contexto para que entrene porque siempre mantiene el mismo, en base a esto creo que lo que me está fallando son los pares de acciones al dar el siguiente estado no cambia, pero me marea select_action con esta función no se por dónde seguir para utilizarla he implementar que actualice el par estado, acción y que vaya entrenando. No sé si voy bien rumbeado o mejor vuelvo a leer teórico?

Gracias!

Citar

martin.zanoniani

(@martin-zanoniani)

Registrado: hace 4 años

Respuestas: 1

19/01/2021 3:06 pm

Hola Giani

La función select_action, evalúa la red de política para obtener la acción recomendada en cada momento del juego, no lo hace de manera lineal, sino que al principio es aleatorio, y se va poniendo menos aleatoria en tanto pasan las partidas, esto es controlado por EPS_END y EPS_START

Entiendo que select_action te da la misma acción siempre, esto quiere decir que tu modelo considera que la mejor acción es siempre la misma, esto se puede deber a muchas cosas, cosas que puede chequear:

1. que la entrada de la red cambie, sucede que si no se selecciona 1(fire) la primera vez, la pantalla es siempre la misma, la de inicio del juego, el colab tiene en cuenta eso, revisa que tu código también lo haga.

2. se puede jugar con el parámetro GAMMA, que indica que tanto valora tu modelo un reward futuro, creo que para el juego del desafío, el reward viene luego de que la pelotita rebote y rompa un bloque, lo cual son bastantes pasos! aca esta explicado correctamente: https://stackoverflow.com/questions/54334315/what-is-the-full-meaning-of-the-discount-factor-%25CE%25B3-gamma-in-reinforcement-learn&source=gmail&ust=1611164831775000&usg=AFQjCNFVET6YaUfGF8qdMzbFFZwM2DwC_ A"> https://stackoverflow.com/questions/54334315/what-is-the-full-meaning-of-the-discount-factor-γ-gamma-in-reinforcement-learn

Es necesario nos centremos en la parte de matemática?

No es necesario, pero el desafío esta abierto a que puedan implementar cualquier algoritmo que quieran o inventen!. La ecuación de Bellman fue tomado del siguiente tutorial:

https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html&source=gmail&ust=1611164831775000&usg=AFQjCNFmZ2RwAXi-BJBsMNZehys7jdijq g"> https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html

Aquí hay otro muy similar en tensorflow:

https://github.com/fg91/Deep-Q-Learning/blob/master/DQN.ipynb&source=gmail&ust=1611164831775000&usg=AFQjCNFmh07aDOqr6dp4WO7j0rufkT6j4 g"> https://github.com/fg91/Deep-Q-Learning/blob/master/DQN.ipynb

Al final del colab hay mas links que pueden ser útiles.

Saludos!

giani.carlevaro me gusta

ResponderCitar

Forum

Políticas y actualización del contexto