La descripción del desafío indica que se busca un modelo predictivo para el nivel del rio en Durazno, lo que podría servir para alertar poblaciones vulnerables. Al respecto me cuestiono la manera de hacer la predicción. Normalmente pensaría que podría usar los atributos dados para un mismo momento temporal (fila), como humedad del suelo, temperatura, precipitación, etc. ¿pero acaso eso tiene sentido? ¿de que me sirve un modelo predictivo que tiene como entrada mediciones del mismo momento si lo que quiero predecir es un evento a futuro? Por ejemplo, no tendría sentido medir humedad, temperatura y nivel de rio en Polanco del Yi para saber el nivel del rio en Durazno en ese mismo momento. De haber un nivel muy alto, ya fue tarde.
Además, aparentemente es el mismo rio en 3 ubicaciones distintas (no soy de Uruguay). La correlación con Polanco_level es muy alta. Uno podría hacer un modelo predictivo prácticamente solo con eso, pero no solo carece de sentido temporal, sino que de alguna manera es redundante geográficamente.
Considerando eso, ¿deberíamos hacer una predicción temporal del nivel del rio Durazno? y si es así, ¿de cuantos días? Hacer un modelo predictivo de este tipo sería totalmente distinto. También se requeriría que los datos de entrenamiento y verificación tengan un orden temporal, o habría que modificarlos para agregar nuevas columnas que muestren atributos de días anteriores. De alguna manera se vuelve mucho más complejo, pero tendría más sentido.
Favor sus comentarios.
RRE