Duda sobre los datos.

nestor.rodriguez

(@nestor-rodriguez)

Registrado: hace 2 años

Respuestas: 9

24/09/2024 6:06 pm

Podrían explicar el contenido de las columnas de los datos para evaluar.

En varias columnas en donde por el nombre esperaría un valor numérico, al ver los datos son series de números separados por un ".".

Existe algún documento donde se especifique el contenido de las columnas y como interpretar los datos en ellas?

Citar

giani.carlevaro

(@giani-carlevaro)

Admin

Registrado: hace 6 años

Respuestas: 70

26/09/2024 12:52 am

Hola Nestor, podrías compartir captura de cómo estás viendo: 'al ver los datos son series de números separados por un "." '

También puede ser que veas números grandes sin separadores y que están mal formateadas algunas columnas como humedad_suelo, Temperatura y ET.

Parece ser necesario limpiar los datos para el análisis.

Agrego descripción de las columnas (variables):

id: Identificador único de cada registro
dt: Fecha del registro
Durazno: Medición numérica (caudal) en Durazno.
Sarandi_del_yi: Medición numérica en Sarandí del Yí (caudal).
Polanco_del_yi: Medición numérica en Polanco del Yí (caudal).
Sarandi_del_Yi_level: Nivel del agua en Sarandí del Yí.
Durazno_level: Nivel del agua en Durazno (variable objetivo).
Polanco_level: Nivel del agua en Polanco del Yí.
Sarandi_del_Yi_precipitation: Precipitación en Sarandí del Yí.
Polanco_precipitation: Precipitación en Polanco del Yí.
Durazno_precipitation: Precipitación en Durazno.
Precipitaciones_IMERG_Durazno: Precipitación en Durazno según IMERG
Precipitaciones_MERRA_Durazno: Precipitación en Durazno según MERRA
Precipitaciones_IMERG_Polanco_del_Yi: Precipitación en Polanco del Yí según IMERG.
Precipitaciones_MERRA_Polanco_del_Yi: Precipitación en Polanco del Yí según MERRA.
Precipitaciones_IMERG_Sarandi_del_Yi: Precipitación en Sarandí del Yí según IMERG.
Precipitaciones_MERRA_Sarandi_del_Yi: Precipitación en Sarandí del Yí según MERRA.
humedad_suelo: Medición de la humedad del suelo.
Temperatura: Medición de la temperatura.
ET: Evapotranspiración, medida de la pérdida de agua del suelo.

ResponderCitar

nestor.rodriguez

(@nestor-rodriguez)

Registrado: hace 2 años

Respuestas: 9

26/09/2024 9:24 am

Hola Mauro:
Copio a continuacion la salida del .info, .describe y .head del dataframe cargado.
Aclaro que cargue el dataframe como str porque al analizarlo me estaba complicando porque no sabia como "limpiar" los datos

--------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1541 entries, 0 to 1540
Data columns (total 20 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 id 1541 non-null object
1 dt 1541 non-null object
2 Durazno 1541 non-null object
3 Sarandi_del_yi 1541 non-null object
4 Polanco_del_yi 1541 non-null object
5 Sarandi_del_Yi_level 1541 non-null object
6 Durazno_level 1541 non-null object
7 Polanco_level 1541 non-null object
8 Sarandi_del_Yi_precipitation 1541 non-null object
9 Polanco_precipitation 1541 non-null object
10 Durazno_precipitation 1541 non-null object
11 Precipitaciones_IMERG_Durazno 1541 non-null object
12 Precipitaciones_MERRA_Durazno 1541 non-null object
13 Precipitaciones_IMERG_Polanco_del_Yi 1541 non-null object
14 Precipitaciones_MERRA_Polanco_del_Yi 1541 non-null object
15 Precipitaciones_IMERG_Sarandi_del_Yi 1541 non-null object
16 Precipitaciones_MERRA_Sarandi_del_Yi 1541 non-null object
17 humedad_suelo 1541 non-null object
18 Temperatura 1541 non-null object
19 ET 1541 non-null object
dtypes: object(20)
memory usage: 240.9+ KB
None
--------------------------------------------------------------------
id dt ... Temperatura ET
count 1541 1541 ... 1541 1541
unique 1541 1541 ... 1541 1541
top 1279 9/30/18 ... 19.472.119.609.946.500 25.028.009.384.115.900
freq 1 1 ... 1 1

[4 rows x 20 columns]
--------------------------------------------------------------------
id dt ... Temperatura ET
0 1279 9/30/18 ... 19.472.119.609.946.500 25.028.009.384.115.900
1 142 8/20/15 ... 2.011.952.369.046.540 28.767.389.391.433.300
2 3 4/3/15 ... 14.703.518.427.550.700 3.402.303.555.749.830
3 1190 7/3/18 ... 26.795.857.939.119.100 30.484.897.623.745.700
4 1802 3/6/20 ... 16.132.466.453.214.300 3.508.002.160.847.000

[5 rows x 20 columns]
--------------------------------------------------------------------

Captura-de-pantalla-2024-09-26-083805.png

ResponderCitar

nestor.rodriguez

(@nestor-rodriguez)

Registrado: hace 2 años

Respuestas: 9

26/09/2024 9:33 am

lo unico que ejecute fue

dataframe = pd.read_csv(archivo, dtype=str)

print('--------------------------------------------------------------------')
print(dataframe.info())
print('--------------------------------------------------------------------')
print(dataframe.describe())
print('--------------------------------------------------------------------')
print(dataframe.head())
print('--------------------------------------------------------------------')

Veo el dato de igua lmanera si lo abro con notepad++ (al csv)

ResponderCitar

giani.carlevaro

(@giani-carlevaro)

Admin

Registrado: hace 6 años

Respuestas: 70

28/09/2024 11:46 pm

Nestor, está bien lo que dices, no subí la última versión del dataset, ya lo modifique con los datos procesados.

Prueba volver a descargarlo, gracias!

nestor.rodriguez me gusta

ResponderCitar

Forum

Duda sobre los datos.