Podrían explicar el contenido de las columnas de los datos para evaluar.
En varias columnas en donde por el nombre esperaría un valor numérico, al ver los datos son series de números separados por un ".".
Existe algún documento donde se especifique el contenido de las columnas y como interpretar los datos en ellas?
Hola Nestor, podrías compartir captura de cómo estás viendo: 'al ver los datos son series de números separados por un "." '
También puede ser que veas números grandes sin separadores y que están mal formateadas algunas columnas como humedad_suelo, Temperatura y ET.
Parece ser necesario limpiar los datos para el análisis.
Agrego descripción de las columnas (variables):
- id: Identificador único de cada registro
- dt: Fecha del registro
- Durazno: Medición numérica (caudal) en Durazno.
- Sarandi_del_yi: Medición numérica en Sarandí del Yí (caudal).
- Polanco_del_yi: Medición numérica en Polanco del Yí (caudal).
- Sarandi_del_Yi_level: Nivel del agua en Sarandí del Yí.
- Durazno_level: Nivel del agua en Durazno (variable objetivo).
- Polanco_level: Nivel del agua en Polanco del Yí.
- Sarandi_del_Yi_precipitation: Precipitación en Sarandí del Yí.
- Polanco_precipitation: Precipitación en Polanco del Yí.
- Durazno_precipitation: Precipitación en Durazno.
- Precipitaciones_IMERG_Durazno: Precipitación en Durazno según IMERG
- Precipitaciones_MERRA_Durazno: Precipitación en Durazno según MERRA
- Precipitaciones_IMERG_Polanco_del_Yi: Precipitación en Polanco del Yí según IMERG.
- Precipitaciones_MERRA_Polanco_del_Yi: Precipitación en Polanco del Yí según MERRA.
- Precipitaciones_IMERG_Sarandi_del_Yi: Precipitación en Sarandí del Yí según IMERG.
- Precipitaciones_MERRA_Sarandi_del_Yi: Precipitación en Sarandí del Yí según MERRA.
- humedad_suelo: Medición de la humedad del suelo.
- Temperatura: Medición de la temperatura.
- ET: Evapotranspiración, medida de la pérdida de agua del suelo.
Hola Mauro:
Copio a continuacion la salida del .info, .describe y .head del dataframe cargado.
Aclaro que cargue el dataframe como str porque al analizarlo me estaba complicando porque no sabia como "limpiar" los datos
--------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1541 entries, 0 to 1540
Data columns (total 20 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 id 1541 non-null object
1 dt 1541 non-null object
2 Durazno 1541 non-null object
3 Sarandi_del_yi 1541 non-null object
4 Polanco_del_yi 1541 non-null object
5 Sarandi_del_Yi_level 1541 non-null object
6 Durazno_level 1541 non-null object
7 Polanco_level 1541 non-null object
8 Sarandi_del_Yi_precipitation 1541 non-null object
9 Polanco_precipitation 1541 non-null object
10 Durazno_precipitation 1541 non-null object
11 Precipitaciones_IMERG_Durazno 1541 non-null object
12 Precipitaciones_MERRA_Durazno 1541 non-null object
13 Precipitaciones_IMERG_Polanco_del_Yi 1541 non-null object
14 Precipitaciones_MERRA_Polanco_del_Yi 1541 non-null object
15 Precipitaciones_IMERG_Sarandi_del_Yi 1541 non-null object
16 Precipitaciones_MERRA_Sarandi_del_Yi 1541 non-null object
17 humedad_suelo 1541 non-null object
18 Temperatura 1541 non-null object
19 ET 1541 non-null object
dtypes: object(20)
memory usage: 240.9+ KB
None
--------------------------------------------------------------------
id dt ... Temperatura ET
count 1541 1541 ... 1541 1541
unique 1541 1541 ... 1541 1541
top 1279 9/30/18 ... 19.472.119.609.946.500 25.028.009.384.115.900
freq 1 1 ... 1 1
[4 rows x 20 columns]
--------------------------------------------------------------------
id dt ... Temperatura ET
0 1279 9/30/18 ... 19.472.119.609.946.500 25.028.009.384.115.900
1 142 8/20/15 ... 2.011.952.369.046.540 28.767.389.391.433.300
2 3 4/3/15 ... 14.703.518.427.550.700 3.402.303.555.749.830
3 1190 7/3/18 ... 26.795.857.939.119.100 30.484.897.623.745.700
4 1802 3/6/20 ... 16.132.466.453.214.300 3.508.002.160.847.000
[5 rows x 20 columns]
--------------------------------------------------------------------
lo unico que ejecute fue
dataframe = pd.read_csv(archivo, dtype=str)
print('--------------------------------------------------------------------')
print(dataframe.info())
print('--------------------------------------------------------------------')
print(dataframe.describe())
print('--------------------------------------------------------------------')
print(dataframe.head())
print('--------------------------------------------------------------------')
Veo el dato de igua lmanera si lo abro con notepad++ (al csv)
Nestor, está bien lo que dices, no subí la última versión del dataset, ya lo modifique con los datos procesados.
Prueba volver a descargarlo, gracias!