Hola buenas tardes! Alguien podría ayudarme a comprender exactamente cuál es la consigna del desafío? La propuesta no está muy comprensible, gracias
Buenas estimados,
Tengo algunas consultas. En este caso se pretende entregar un .csv con las columnas solicitadas, siendo la variable target Concepto final del rendimiento o alguna similar?
También dice algo similar a que se le presentará en la pantalla a un usuario (?)
El dataset al ser tan grande, hay algunos valores a los que se le debe realizar la predicción (set de prueba)?
Estoy atento muchas gracias desde ya
Hola, gracias por los comentarios, en base a ello mejoramos la descripción y la presentación de los datos, les recomiendo bajarlos de nuevo o agregar a la descarga “st_verify_data.csv” que es el que agregamos para la validación, es para luego que tengan el modelo ya armado.
El objetivo del desafío es que los participantes desarrollen habilidades en inteligencia artificial y aprendizaje automático aplicado a la predicción del rendimiento en primaria. En este caso el rendimiento está determinado por el resultado final del curso: promovido o repetidor, lo cual está dado por la variable “cod_evaluacion_final” que tiene los valores 0, 1 y 2 correspondientes a la siguiente categorización (sin asignar, promovido, repetidor). Los datos de la variable objetivo se encuentra en "df_ceip.csv"
O sea, luego de realizado y entrenado el modelo tenemos el archivo “st_verify_data.csv” que contiene los datos que hay que utilizar para validar el modelo y con ello realizar la entrega de la solución.
El archivo de entrega debe tener la misma cantidad de filas que “st_verify_data.csv” + una columna con la predicción realizada en donde id se va a corresponder con los valores de los ids dados en “st_verify_data.csv” y la columna “evaluacion_final” será las predicciones para cada id.
Adjunto una imagen de ejemplo, cualquier duda quedo a las órdenes, si ven que demoro en responder en el foro me escriben al mail: giani.carlevaro@utec.edu.uy
Saludos!
Hola Emiliano, pongo en verde las respuestas:
- la variable target Concepto final del rendimiento o alguna similar?
“cod_evaluacion_final” que tiene los valores 0, 1 y 2 correspondientes a la siguiente categorización (sin asignar, promovido, repetidor). Los datos de la variable objetivo se encuentra en "df_ceip.csv"
- También dice algo similar a que se le presentará en la pantalla a un usuario (?)
En qué parte está esto?
- El dataset al ser tan grande, hay algunos valores a los que se le debe realizar la predicción (set de prueba)?
Es verdad que el dataset es muy grande si quieres puedes comenzar con "df_ceip.csv" y luego ir incorporando el resto. Al ser tan grande antes de realizar el procesamiento te recomiendo hacer un análisis exploratorio para trabajar con un dataset más pequeño y el procesamiento puedes hacerlo por cada subconjunto. De esta manera, si deseas probar diferentes variaciones en función de las consideraciones que tomes, tendrás un proceso más controlado y simplificado
Cualquier duda o algo que no me haya explicado bien vuelves a escribir, saludos!
Buenas Giani muchas gracias por la aclaración.
Ahora me surge una duda, solo hace falta para predecir a partir de las variables del archivo df_ceip.csv? Entonces no sería necesario utilizar los otros archivos que hay? También comprobaron si algunas filas del set de prueba no coinciden con las del set de entrenamiento?
Gracias desde ya
Hola, buen día. Como el dataset es enorme, les va a requerir procesar por lote y consumir muchos recursos y tiempo. Por lo cual, en primera instancia pueden probar trabajar solo con df_ceip.csv y con ese conjunto poder tener las primeras predicciones y realizar entrega. Utilizar el resto de los archivos da la posibilidad de mejorar la performance.
Respecto la 2da pregunta, los datos del conjunto de validación st_verify_data.csv son distintos a los que hay para entrenar, no sé si era esa la pregunta?
Cualquier cosa me vuelves a escribir, saludos!