Machine Learning - Comunidad aiutechallenge

Cómo elegir buenas variables categóricas

taa.admin — Thu, 16 Sep 2021 19:29:37 +0000

Introducción

En el anterior artículo (clickea aquí por si no lo leíste, ya que mencionaremos conceptos explicados en ese artículo) explicamos la importancia de elegir buenas variables al momento de armar un modelo predictivo. Básicamente no importa que tan sofisticado sea el modelo que utilizamos si no lo alimentamos con buenos datos. Y una buena manera de distinguir buenos datos es calculando el coeficiente de correlación (o más precisamente, pidiéndole a python que lo calcule por nosotros). Por más de que el coeficiente de correlación sea muy útil, tiene limitaciones. Una de estas limitaciones es que no sirve para datos categóricos, por lo que es necesario recurrir a ciertas alternativas para trabajar con este tipo de datos.

En este artículo utilizaremos código de la librería Dython para Python, creada por Shaked Zychlinski. Si quieres instarla (muy recomendable), en esta página de github se explica como. Este artículo explica varios conceptos de forma simplificada al estar pensado para principiantes. Si quieres explorar estos conceptos de forma más detallada y explicados por el mismo Shaked Zychlinski puedes clickear aquí. Además de eso, es importante destacar que explicamos el funcionamiento de distintas técnicas estadísticas sin adentrarnos en los conceptos matemáticos detrás de las mismas.

Diferencias entre datos numéricos continuos y categóricos

En el área del Machine Learning es muy común dividir todos los datos en dos categorías: datos numéricos y datos categóricos. Los datos numéricos son todos aquellos que puedan ser representados con números, mientras que los datos categóricos son todos aquellos que no pueden ser representados numéricamente. Por ejemplo, en un dataset que tenga datos sobre personas puedo tener las siguientes variables numéricas: fecha de nacimiento, peso, altura, salario. Mientras que por otro lado puedo tener ciertas variables categóricas como: sexo, color de ojos, nacionalidad, ocupación, estado civil, etc.

Los datos categóricos no tienen un orden matemático. Volviendo al ejemplo del dataset de personas, podemos ordenar el mismo de menor a mayor en relación a la edad de cada individuo. Sabemos que en ese caso una persona con 18 años aparecería antes en el dataset que una de 45. Pero si intentamos ordenar de menor a mayor en función de su color de ojos…¿Cuál iría primero? Los colores no tienen un valor matemático inherente que podamos usar para ordenarlos, es por este motivo que la gran herramienta de la correlación no es muy útil en estos casos.

Una de las primeras ideas que puede surgir para intentar solucionar este problema podría ser reemplazar cada valor con un número. Podemos intentar entonces que cada color de ojos se corresponda con el número ¿Que podría salir mal?

Supongamos entonces que le asignamos un número a cada color como muestra la tabla.

Color de ojos	Valor numerico
marrón	1
azul	2
verde	3
gris	4

Tal vez no sea tan obvio a simple vista, pero de acuerdo a nuestra tabla el promedio entre marrón y verde es ahora igual a azul... Esto claramente es un problema, no solo porque no tiene sentido promediar colores, sino por el sencillo hecho de que si la tabla estuviera ordenada de otra manera el resultado de ese promedio podría ser completamente diferente.

La moraleja de este ejemplo entonces es: los datos categóricos son diferentes a los datos numéricos, por lo que deberíamos tratarlos de forma diferente.

Asociación entre variables categóricas

Supongamos que tenemos dos variables categóricas y queremos saber si tienen alguna relación entre sí. Sabemos que no podemos calcular su coeficiente de correlación, por lo que sería incorrecto decir que estamos intentando medir su “correlación”. Diremos entonces que queremos medir de alguna forma su “asociación”.

Para este propósito existen herramientas como la V de Cramer y la U de Theil. Esta última (también conocida como coeficiente de incertidumbre) es la más apropiada para nuestro caso.

Veamos entonces cómo funciona el coeficiente de incertidumbre. Supongamos que tenemos una variable X y una variable Y. Para obtener el valor del coeficiente se sigue el siguiente razonamiento: dado un valor de X ¿Cuántos estados posibles tiene Y y con qué frecuencia se ocurren estos estados?.

Si estás interesado en entender el funcionamiento matemático detrás del coeficiente de incertidumbre, puedes hacer click aquí para leer más al respecto. Por ahora basta simplemente con entender los resultados de esta técnica, ya que Python se encargará de todos los cálculos matemáticos por nosotros. Usar la U de Theil no es tan distinto a usar la correlación de Pearson ya que nos devuelve un valor numérico entre 0 y 1. Entre más cercano a 1 sea el valor más fuerte es la asociación entre las variables y más recomendables es utilizarla en un modelo predictivo.

La librería Dython incluye una función para calcular automáticamente el valor de la U de Theil. Pero también puedes copiar y pegar el siguiente código para utilizar la función en tu código.

Ver código

Asociación entre variables categóricas y numéricas

Ya sabemos que hacer para medir la asociación entre dos variables categóricas y entre dos variables numéricas. ¿Qué hacemos entonces si tenemos una variable numérica continua y una variable categórica? En ese caso podemos recurrir a la razón de correlación (no confundir con coeficiente de correlación).

Esta técnica también nos devuelve un valor entre 0 y 1, donde la asociación es más fuerte entre más cercano esté el valor a 1. Supongamos nuevamente que tenemos una variable X y una variable Y. Para obtener dicho valor se sigue el siguiente razonamiento: dado un valor numérico continuo. ¿Qué tan precisamente podemos predecir a qué categoría pertenece?

Como siempre, puedes clickear aquí para adentrarte en el funcionamiento matemático de esta técnica. Pero aún así te recordamos que un entendimiento tan profundo no es necesario para sacarle provecho, ya que como siempre Python se encarga de todos los cálculos por nosotros.

Una vez más, puedes recurrir a la librería Dython para acceder a una función para calcular la razón de correlación o puedes copiar y pegar el código a continuación.

Ver código

Resumen

¿No tienes ganas de leer? Te dejamos entonces una tabla indicando qué técnica usar en cada caso.

Numérica continua	Numérica continua	Correlación (de Pearson o alguna otra)
Categórica	Categórica	Coeficiente incertidumbre
Categórica	Numérica continua	Razón de correlación

Eligiendo buenas variables a través de coeficientes de correlación

taa.admin — Thu, 24 Jun 2021 15:17:15 +0000

Introducción

Al momento de armar modelos de predicción podemos utilizar una gran variedad de técnicas, como redes neuronales, bosques aleatorios, regresiones, etc. Pero sin importar la técnica que usemos, no será de gran utilidad si no usamos buenos datos para entrenar el modelo.

Hay diversos factores que influyen en lo que podemos considerar “buenos datos”, en este artículo nos centraremos en uno de los aspectos más básicos: elegir las mejores variables.

Explicaremos de una forma accesible los conceptos de correlación y mostraremos ejemplos prácticos.

Un ejemplo de dataset (conjunto de datos) podría ser el siguiente, donde cada columna representa una variable.

Podríamos intentar usarlo para hacer un modelo capaz de predecir el valor de distintos pasajes de avión a partir de las otras variables.

Dataset de ejemplo sobre vuelos de avión de una empresa X
Id	Origen	Destino	Cantidad de asientos	Fecha del vuelo	Distancia recorrida (km)	Precio
1	Montevideo (UY)	Santiago de Chile (CL)	200	23/12/21	1.342,83	750
2	Montevideo(UY)	Barcelona (ESP)	250	30/12/21	10.353,63 km	3000
3	Montevideo(UY)	Buenos Aires (ARG)	100	29/5/21	220.68	159
4	Montevideo(UY)	São Paulo (BR)	300	15/521	1567.83	400
5	Montevideo(UY)	Lima (PE)	250	10/6/21	3,298	412

Cuando usamos un dataset es poco probable que usemos todas las variables que vienen con el mismo, esto es porque algunas variables son más útiles que otras dependiendo de qué es lo que queremos predecir. Al punto de que la precisión del modelo puede bajar drásticamente si incluimos variables que no tengan una fuerte relación con la variable objetivo. Así que nuestro objetivo entonces es darle al modelo únicamente aquellas variables que mejoren su precisión. Por lo que surge entonces la pregunta: ¿Cómo sabemos cuáles variables son “mejores”?

Correlación

La correlación es una de las herramientas más útiles para poder elegir nuestras variables. La correlación es un concepto estadístico, lo cual implica matemática. Pero antes de entrar en pánico es importante saber que las herramientas de software se encargan de esta matemática por nosotros. Por lo que, con un entendimiento superficial es más que suficiente para comenzar a usar esta herramienta, aunque claramente el entendimiento matemático no le hace daño a nadie. Un aspecto importante a destacar es que por más que es muy útil, la correlación tiene limitaciones. Una de las más obvias es que al calcularse numéricamente, es imposible obtener la correlación entre una variable numérica y otra no numérica (un ejemplo de valor no numérico puede ser un color o una nacionalidad). Pero no te preocupes, en futuros artículos explicaremos cómo averiguar la relación entre estos tipos de variables.

La correlación se encarga de medir la relación entre dos variables, esto no implica necesariamente causalidad pero puede ser útil para predicciones. La correlación significa que dos variables tienen algún tipo de relación detectable, mientras que la causalidad implicaría que una variable influye directamente en la otra. Esto se entiende mejor con un ejemplo: Hace algunos años un estudio científico mostró que los niños menores de dos años que dormían con la luz encendida tenían mayores chances de sufrir de miopía. Estudios posteriores no encontraron ninguna relación entre luz nocturna y tendencia a sufrir de miopía, pero si demostraron que los padres que sufrían de miopía tenían una tendencia a dejar las luces encendidas durante la noche, además de eso, estudios previos también indicaban que existen predisposiciones genéticas a sufrir de miopía (es decir, es normal heredar). Con este ejemplo observamos que claramente hay una relación entre niños menores de 2 años durmiendo con la luz encendida y la miopía, pero esto no significa que la miopía sea causada por dormir con la luz encendida.

Hay varios tipos de correlación, la más utilizada es la de Pearson o lineal, seguida por la Spearman y Kendall. En este artículo explicaremos únicamente la primera.

Un rápido recordatorio

Si leíste el artículo sobre regresión, recordarás que toda recta tiene una pendiente. Si la pendiente es positiva la recta “irá hacia arriba” mientras que si la pendiente es negativa la recta “irá hacia abajo”. La siguiente animación muestra los efectos de variar la pendiente m (normalmente se usa la letra m para representar la pendiente).

Coeficiente de correlación de Pearson

La correlación de Pearson es la más intuitiva y sencilla, debido a esto suele ser la primera opción al medir correlaciones. Calcular el coeficiente de correlación de Pearson nos da un número que puede ir del -1 al 1. El primer valor indica una correlación perfectamente negativa, mientras que el segundo indica una correlación perfectamente positiva. Un valor de 0 por otro lado indicaría una correlación nula.

Si te interesa entender la matemática detrás del coeficiente de correlación puedes ir al siguiente enlace, pero este artículo se limitará a una explicación general, lo cual es más que suficiente para comenzar a armar tus propios modelos (e incluso para ganar desafíos en aiutechallenge).

La explicación sencilla es: si graficamos una variable en función de otra, entre más cerca estén los puntos de formar una recta más fuerte será la correlación de Pearson. Si esta recta imaginaria tiene una pendiente positiva, el coeficiente de correlación será positivo, mientras que si la pendiente es negativa el coeficiente de correlación será negativo.

Por ejemplo, supongamos que vamos a comprar varias unidades de un producto con un precio fijo. Si graficamos el precio en función de la cantidad comprada deberíamos obtener una correlación perfecta como muestra la siguiente gráfica, los puntos están perfectamente alineados en una recta por lo que obtenemos una correlación de 1 (algo que nunca va a pasar en la vida real).

En el mundo real las cosas son un poco más complejas, generalmente comprar por mayor es más barato que comprar por menor, por lo que una gráfica más realista de precio en relación de cantidad sería la siguiente.

Vemos que ahora los puntos ya no encajan perfectamente en una recta, pero tampoco están tan alejados de la misma. Ahora entonces la correlación es alta pero menor a 1.

Esta imagen muestra varios ejemplos de los distintos valores de correlación (el valor de correlación está representado por el símbolo ) en distintas situaciones.

Vemos como para el ejemplo donde la correlación es cero, no hay ninguna recta. Este es el peor de los casos, donde no hay ningún tipo de correlación. Básicamente si sucede significa que la variable es inútil para realizar predicciones.

Decimos entonces que entre más cerca esté del 1 o -1 el valor de correlación la relación entre esas dos variables es más fuerte, debilitándose al acercarse al 0.

Valor del coeficiente de correlación	Criterio
De 0,7 a 1,0	Correlación positiva fuerte
De 0,5 a 0,7	Correlación positiva moderada
De 0,2 a 0,5	Correlación positiva baja
De -0,2 a 0,2	Correlación (positiva o negativa) débil o nula
De -0,2 a -0,5	Correlación negativa moderada
De -0,5 a -0,7	Correlación negativa moderada
De -0,7 a -1,0	Correlación negativa fuerte

Generalmente para un modelo de predicción es útil usar variables con correlaciones mayores a 0,7.

Una rápida demostración usando la librería de Pandas

A continuación daremos un ejemplo rápido de como usar la librería Pandas para ver la correlación entre variables. Si quieres probar ese código tú mismo (también muestra cómo armamos las dos primeras gráficas) puedes acceder a este Google Colab y realizar una copia del mismo. ¿No sabés qué es Google Colab? Clickea aquí para aprender en 5 minutos.

La librería Pandas es una librería de Python muy utilizada para el manejo y análisis de datos. Pandas trabaja con dataframes, una palabra elegante para referirse a tablas como esta.

Para este ejemplo tenemos dos dataframes con distintos precios y cantidades, tienen los creativos nombres de df1 y df2.

Pandas tiene la función corr() para medir la correlación entre las variables de un dataframe. Esta función permite elegir entre las correlaciones de Pearson, Spearman y Kendall. Podemos especificar que tipo de coeficiente de correlación queremos calcular de esta forma

mi_dataframe.corr('tipo_de_correlacion')

Si no especificamos el tipo de correlación se usará por defecto la de Pearson.

Por lo que esto:

mi_dataframe.corr()

Es lo mismo que esto:

mi_dataframe.corr('pearson')

Al graficar el contenido de df1 obtenemos esta gráfica que mostramos anteriormente.

Por lo que, sabemos que al calcular la correlación deberíamos obtener un valor de 1, ya que los puntos encajan perfectamente en una recta de pendiente positiva. Cabe destacar que esto jamás sucederá en la vida real.
Calculamos entonces la correlación de esta manera:

df1.corr()

Y obtenemos la siguiente matriz que confirma la correlación perfecta. Vemos que la matriz también compara las variables con sí mismas, lo que siempre dará un valor de 1.0

Por otro lado tenemos df2, el cual al ser graficado da esta otra gráfica que ya mostramos anteriormente.

Al ejecutar

df2.corr()

Se obtiene esta matriz, con un valor de correlación entre precio y cantidad menor a 1, pero aún así bastante alto.

En un caso real un valor tan alto como este sería probablemente muy útil para realizar predicciones.

La función corr devuelve una matriz la cual compara las correlaciones de todas las variables entre sí. Esto es útil, pero generalmente nos interesa hacer predicciones de una única variable, por lo que solo nos interesaría la correlación de esa variable con las demás, es decir, solo nos interesaría una única columna de la matriz. Afortunadamente Pandas nos permite seleccionar columnas al momento de medir correlaciones. Veámoslo con un ejemplo, voy a usar este dataset, el cual guardaré en un dataframe de Pandas llamado df3.

Hasta ahora usamos datasets con pocas variables, por lo que las matrices de correlaciones eran pequeñas y fáciles de mirar. Pero al usar un dataset real vemos que la matriz puede volverse enorme muy fácilmente.

Vamos a ver la matriz de correlaciones de este dataset.

df3.corr()

Lo que nos da esta enorme matriz, la cual tiene demasiados números para mirar.

Como mirar tantos números es incómodo, una práctica común suele ser el usar “mapas de calor” al medir la correlación. Básicamente son matrices iguales a esta donde el color de cada cuadro varía según el valor del coeficiente de correlación, haciendo bastante más intuitivo el proceso de encontrar correlaciones fuertes. Los mapas de calor suelen verse así.

Imagen tomada de este artículo de Medium

Volviendo a nuestra matriz difícil de mirar y sin colores. Sería razonable usar el dataset para predecir el valor de la variable precio. En ese caso, podría ser perfectamente válido el que nos importara únicamente la primera columna de la matriz.

Así que para hacer nuestra vida más fácil podemos obtener únicamente esa columna siguiendo esta sintaxis.

mi_dataframe.corr()

En este caso entonces escribire esto

df3.corr()

Lo que nos da la siguiente columna mucho más fácil de mirar y entender.

Si queremos ir un paso más allá podemos utilizar tambien la funcion sort_values() para ordenar los resultados de menor a mayor.

df3.corr().sort_values()

Lo que nos devuelve lo mismo, pero ahora ordenado de menor a mayor.

En la segunda parte del artículo sobre regresión, usamos la librería matplotlib para mostrar las correlaciones en una gráfica.

Visualización de datos simple con Python y Matplotlib

taa.admin — Thu, 18 Mar 2021 20:10:47 +0000

Python cuenta con una gran cantidad de librerías las cuales son útiles para trabajar con datos, ya sea para organizarlos, operar con ellos, o visualizarlos.

Para trabajar con datos en forma de tablas tenemos Pandas, para trabajar matemáticamente con datos numéricamente siempre es recomendable Numpy y para visualizar datos tenemos Matplotlib.

Ok ¿Pero que es una librería?

Un proverbio muy común en la programación es “no inventes la rueda”, básicamente refiriéndose a que no es recomendable perder el tiempo intentando inventar por nuestra cuenta una solución que ya fue implementada incontables veces por otras personas y probablemente de formas más eficientes. Muchos veteranos suelen alargar la popular frase diciendo algo similar a “no reinventes la rueda, a menos que quieras aprender más sobre ruedas”, representando una postura más balanceada en el tema. Básicamente significa que la gran mayoría de las veces no es necesario el tener que resolver 100% por nuestra cuenta todos los retos de nuestro proyecto sin ayudarnos con aquello que ya existe, pero puede ser recomendable si queremos aprender más sobre un tema en específico.

Foto por César Pena

Ahora sí, ¿Qué son las librerías?. Las librerías en palabras sencillas son un conjunto de funciones las cuales pueden ser fácilmente añadidas a nuestro proyecto y utilizadas con tan solo llamarlas. Son extremadamente útiles y es casi imposible hacer un proyecto (o al menos uno que no tome una eternidad) sin utilizar alguna librería. Las librerías entonces representan la versión corta del famoso proverbio, ya que claramente no somos los primeros en pensar que sería útil el utilizar código para representar datos, entonces ¿Para qué sufrir en lugar de sacar provecho a las herramientas que ya existen?

¿Qué es matplotlib?

Matplotlib es una librería de python creada por Jhon Hunter la cual está especialmente diseñada para visualizar datos. Tomando inspiración de MATLAB matplotlib trabaja con tres elementos principales: axis (“ejes”), figure (“figura”) y plot (“gráfico” o “cuadro”). Matplotlib tiene varios módulos especializados en distintas áreas como animación o proyección, nosotros trabajaremos con el módulo pyplot, el cual se especializa en el dibujado de gráficos relativamente simples y es aún más parecido a MATLAB que el resto de la librería.

A tener en cuenta

Para ejecutar el código de muestra puedes utilizar Google Colab, si nunca lo utilizaste antes puedes leer este artículo donde te explicamos cómo funciona.

Consejo 1: siempre puedes buscar algún ejemplo en internet y luego modificar el código para adaptarlo a tus necesidades. Todo el mundo lo hace, ya que tomaría una gran cantidad de tiempo el verdaderamente dominar todas las herramientas que nos ofrece matplotlib.

Consejo 2: Siempre es recomendable leer la documentación de una librería o herramienta, ya que suelen tener explicaciones a fondo de cómo operan las funciones, además de tutoriales y ejemplos. Matplotlib cumple con esto teniendo una sección de ejemplos y otra de tutoriales.

Consejo 3: Incluso el mejor programador busca respuestas en internet, es imposible programar un proyecto sin tener que consultar dudas online. Además de eso, ni el mejor tutorial/artículo te enseñará todo lo necesario sobre un tema, por lo que buscar más sobre el tema en internet siempre será necesario.

Consejo 4: este artículo contiene muchos enlaces a otros artículos y tutoriales como sugerencias para aprender más, todos ellos están en inglés. Pero si tienes dificultad con el idioma siempre puedes traducir la página, este enlace te muestra cómo hacerlo en Google Chrome y este otro te muestra cómo hacerlo utilizando Firefox.

Consejo 5: Si quieres aprender de una forma guiada y completa te recomendamos este curso gratuito de Freecodecamp.org

Recordatorio: en matplotlib hay múltiples maneras de obtener el mismo resultado, los ejemplos de este artículo son los que consideramos más sencillos. Intencionalmente evitamos trabajar individualmente con ejes porque eso requiere más líneas de código y trabajo, pero es recomendable y necesario trabajar con ejes para poder hacer visualizaciones más avanzadas. De todas formas no te preocupes, ya que las visualizaciones simples suelen bastar la mayoría de las veces, ya que generalmente trabajamos con datasets simples y ordenados, no con un acelerador de partículas.

El internet está lleno de tutoriales e información de todo tipo, tanta que en algunos momentos se puede hacer difícil de elegir. Por eso luego de cada ejemplo recomendamos algunos tutoriales y ejemplos, así puedes ahorrarte la indecisión. Aparte de todo eso, también recomendamos este tutorial una vez hayas terminado de leer este artículo.

Aprendiendo mediante ejemplos

Empezando con la gráfica más fácil

El primer paso para todos estos ejemplos es importar lo necesario. Como ya vimos la librería es enorme, tiene una gran cantidad de módulos y aproximadamente 70.000 líneas de código. Pero nosotros estamos tan sólo interesados en el módulo pyplot. Por eso nuestra primera línea de código será la siguiente:

import matplotlib.pyplot as plt

import sirve para importar cualquier librería, pero si escribiéramos tan solo

import matplotlib

Estaríamos importando toda la librería incluyendo los módulos que no nos interesan. Agregar el “.pyplot” nos asegura que solo se va a importar el módulo que queremos. Ahora tenemos todas las funciones del módulo pyplot. Pero para usar cada una de ellas necesitaríamos escribir

matplotlib.pyplot.NOMBRE_DE_LA_FUNCION()

Lo cual claramente no sería muy cómodo de hacer múltiples veces. Por eso es tan útil agregar as plt al final de la línea. El comando as nos deja asignarle un “alias” al módulo que importamos. Por lo que ahora para cada función basta con escribir:

 
plt.NOMBRE_DE_LA_FUNCION()

La primera función que vamos a utilizar es la función plot, esta función sirve para graficar líneas continuas y es de las más sencillas de utilizar. La función plot sigue la siguiente sintaxis

 
plt.plot(ARGUMENTOS) # Los argumentos se separan por comas

Por lo que vamos a definir dos arrays, cada uno conteniendo un conjunto diferente de números. Estos arrays los pasaremos como argumento a la función plot y eso nos devolverá un gráfica con una línea la cual une todos los puntos, tomando los elementos del conjunto como las coordenadas x e y de los distintos puntos.

 
# Importamos pyplot como plt
import matplotlib.pyplot as plt
# creamos dos arrays con distintos conjuntos de datos

conjunto1 =  # estos numeros son enteros, por lo que serían elementos int

conjunto2 =  # estos numeros tienen decimales, por lo que serian float



# usamos la función plot para generar una linea de acuerdo a los puntos

plt.plot(conjunto1, conjunto2)



# la función show no es necesaria si estamos usando por ejemplo Google Colab,
# pero si puede ser necesaria al usar otros entornos, por lo cual siempre es recomendable escribirla.

# Esta función se asegura de que se muestre nuestra figura

plt.show()

Si ejecutas el código anterior deberías obtener la siguiente figura.

Previamente mencionamos que matplotlib trabajaba principalmente con tres elementos en sus gráficos. Estos eran axis (“ejes”), figure (“figura”) y plot (“gráfico” o “cuadro”). En nuestra anterior figura podemos identificar los 3.

Excelente, ahora veamos qué otras cosas podemos hacer con esta sencilla gráfica.

Esta imagen del sitio oficial de matplotlib nos muestra la anatomía de una figura, vemos que hay una gran cantidad de elementos los cuales podemos personalizar según nuestras necesidades.

Primero que nada vamos a usar nuevamente la función plot para agregar una recta a la figura.

# usamos la función plot para generar una linea de acuerdo a los puntos

plt.plot(conjunto1, conjunto2)

plt.plot(, ) 
# Agregamos un segundo ploteo, va a formar una recta entre los puntos (0,0) y (64,3)

Esto debería resultar en la siguiente figura, donde las dos líneas coinciden en su primeros y últimos puntos.

Ahora vamos a asignarle un nombre a los ejes, un título a la figura y vamos a hacer que sea cuadriculada.

plt.title('Gráfica de muestra') # Agrego un titulo

plt.ylabel('Nombre del eje Y') # asigno un nombre al eje y

plt.xlabel('Nombre del eje X') # asigno un nombre al eje y

plt.grid(True)  # Esto se encarga de que sea cuadriculada la figura

La figura hasta el momento debería verse así.

Pero todavía podemos seguir personalizando esta figura, vamos a cambiar el color de las líneas, el estilo de las mismas, agregar una leyenda. Para esto será necesario agregar algunas cosas a nuestras funciones de plot. Vamos a agregar el argumento label a cada una de las funciones plot, también vamos a agregar el argumento color para cambiar el color de cada línea y además el argumento linestyle para cambiar el estilo de la línea.

plt.plot(conjunto1,conjunto2,label='Caso 1',linestyle='dotted',color='green') 
# dotted nos da una linea punteada




plt.plot(,,label='Caso 2',linestyle='dashed',color='red')
# dashed nos da una linea hecha de lineas mas pequeñas


plt.legend() 
# la funcion legend se encarga de mostrar la leyenda en la figura, 
#esto lo hace leyendo los atributos label de cada plot

También vamos a definir el tamaño de la figura en general así como el tamaño de la fuente en los ejes. Para eso usaremos la función figure con el argumento figsize.

plt.figure(figsize=(5,5)) #Definimos un tamaño para la gráfica

Y agregamos el atributo fontsize a xlabel y ylabel

plt.ylabel('Nombre del eje Y', fontsize=12) # asigno un nombre al eje y

plt.xlabel('Nombre del eje X', fontsize=12) # asigno un nombre al eje y

Nuestro código final debería ser el siguiente:




# Importamos pyplot como plt

import matplotlib.pyplot as plt


# creamos dos arrays con distintos conjuntos de datos

conjunto1 =  # estos numeros son enteros, por lo que serían elementos int

conjunto2 =  # estos numeros tienen decimales, por lo que serian float

plt.figure(figsize=(5,5)) #Definimos un tamaño para la gráfica


# usamos la función plot para generar una linea de acuerdo a los puntos

plt.plot(conjunto1, conjunto2, label='Caso 1', linestyle='dotted', color='green') # dotted nos da una linea punteada

plt.plot(, , label='Caso 2', linestyle='dashed', color='red') # dashed nos da una linea hecha de lineas mas pequeñas

plt.legend() # la funcion legend se encarga de mostrar la leyenda en la figura, esto lo hace leyendo los atributos label de cada plot

plt.title('Gráfica de muestra') # Agrego un titulo

plt.ylabel('Nombre del eje Y', fontsize=12) # asigno un nombre al eje y

plt.xlabel('Nombre del eje X', fontsize=12) # asigno un nombre al eje X

plt.grid(True)  # Esto se encarga de que sea cuadriculada la figura

# la función show no es necesaria si estamos usando por ejemplo Google Colab, pero si puede ser necesaria al usar otros entornos, por lo cual siempre es recomendable escribirla.

# Esta función se asegura de que se muestre nuestra figura

plt.show()

Y la figura debería verse así.

Es importante recordar que con matplotlib hay muchas maneras de obtener el mismo resultado, la idea de este artículo es presentar la forma que nos parece más sencilla para un principiante. Por ejemplo, estas dos líneas de código consiguen el mismo resultado:

plt.plot(conjunto1, conjunto2, linestyle='dashed', color='green')

plt.plot(conjunto1, conjunto2, 'g--') # g indica que el color es green, mientras ‘--’ indica que la línea estilo dashed

Pero para un principiante probablemente la primera sea más fácil de entender. Lo importante es entender los principios básicos para luego poder construir encima de esa base.

Para ver más sobre gráficas de líneas te recomendamos este tutorial o este otro, además de los ejemplos de matplotlib.org.

Ejemplo de gráfico de dispersión simple

La función scatter nos permite graficar nubes de puntos.

# Importamos pyplot como plt
import matplotlib.pyplot as plt
import numpy as np # Importamos numpy para poder generar numeros aleatorios

#Vamos a generar 100 puntos
N = 100

# Generamos 100 coordenadas de X
x = np.random.rand(N)

# Generamos 100 coordenadas de y
y = np.random.rand(N)

# Repetimos lo mismo con otras variables
x1 = np.random.rand(N)
y1 = np.random.rand(N)

# Graficamos x e y como nube de puntos
plt.scatter(x,y, color='orange', alpha=0.5, label = 'puntos naranjas') 

# alpha = 0.5 hace que los puntos sean 50% transparentes


plt.scatter(x1,y1, color='blue', alpha=0.5, label = 'puntos azules')
plt.legend()
plt.show() #siempre recomendable la funcion show

Resultado

Para ver más sobre gráficas de dispersión te recomendamos este tutorial o este otro, además de los ejemplos de matplotlib.org.

Ejemplo de Histograma

Un histograma nos permite ver la frecuencia de repetición de un elemento en un conjunto. Son vitales para la visualización y análisis de datos.

# Importamos pyplot como plt

import matplotlib.pyplot as plt

import numpy as np # Importamos numpy para operar con numeros


#Vamos a generar 100 numeros aleatorios

N = 100


# Guardamos en x los numeros

x = np.random.rand(N)*10

plt.figure(figsize=(10,5)) #le damos un buen tamano a la figura

x_ticks = np.arange(0, 10, 1) #  la funcion arange de numpy devuelve una lista de numeros

# arange funciona asi arange(numero_inicial, numero_final, numero_pasos), por lo que (0,10,1) devuelve 0,1,2,3,4,5,6,7,8,9,10

# Ingresar (0,10,2) devolveria 0,2,4,6,8,10, mientras que (0,15,5) devolveria 0,5,10,15


plt.xticks(x_ticks) # defino que numeros quiero en mi eje x

plt.hist(x) # Uso la funcion de histograma para ver cual es el numero que mas se repite en el array X, es decir, su frecuencia


plt.xlabel('Numero')

plt.ylabel('Frecuencia')

plt.title('Ejemplo de histograma')

plt.show()

Para ver más sobre histogramas te recomendamos este tutorial o este otro, además de los ejemplos de matplotlib.org.

Ejemplo de gráfico de barras

Los gráficos de barras son otro de los más populares y utilizados en la visualización de datos.

import matplotlib.pyplot as plt

meses = 

ganancias = 

plt.bar(meses,ganancias)

plt.title('Ganancias en el 2020')

plt.xlabel('Mes del 2020')

plt.ylabel('Ganancias (en miles de pesos)')

plt.show()

Si necesitas gráficos de barras más avanzados te sugerimos este tutorial, para otros aún más avanzados todavía sugerimos este tutorial y siempre puedes utilizar alguno de estos ejemplos (los primeros tres son ejemplos de gráficos de barras).

Gráfico circular o de pastel

El diagrama circular o de pastel es otro que no puede faltar, para eso vamos a recurrir a la función pie (en ingles pie = pastel)




import matplotlib.pyplot as plt # Importamos matplotlib

y = # Defino las cantidades a representar en el diagrama

mylabels =  # Defino que etiqueta va con cada color o seccion

plt.figure(figsize=(10,10)) # Definimos un buen tamaño

plt.title('Venta de helados por porcentaje')

plt.pie(y, labels = mylabels) # uso la funcion pie para generar el diagrama circular o de pastel (en ingles pie = pastel)

plt.show() # Siempre recomendable agregar la funcion show al final

Este sería el resultado, una gráfica de pastel muy sencilla.

Un ejemplo un poco mas avanzado es el siguiente

import matplotlib.pyplot as plt # Importamos matplotlib

y = # Defino las cantidades a representar en el diagrama

mylabels =  # Definimos un array de colores

mycolors = 

myexplode =  # Explode nos permite hacer que una seccion del pastel se separe del resto

# myexplode es un array con 4 valores ya que tenemos solo 4 secciones en el pastel

# El primer elemento es mayor a cero mientras que todos los demas son cero, por eso solo el primer elemento se separa del paste.

plt.figure(figsize=(10,10)) # Definimos un buen tamaño

plt.title('Venta de helados por porcentaje')

plt.pie(y, labels = mylabels, startangle = 120, explode = myexplode, colors = mycolors, shadow = True) 

# startangle nos permite rotal el pastel, mientras que shadow nos permite agregar una sombra

# colors nos permite definir nuestros propios colores, mientra que explode ya fue explicado

plt.show()

Siendo este el resultado

Para ver más te recomendamos este tutorial sencillo, también este tutorial un poco más avanzado y como siempre los ejemplos del sitio de matplotlib.

Introducción a Google Colaboratory

taa.admin — Fri, 19 Feb 2021 19:18:01 +0000

¿Qué es?

Google Colaboratory o “Colab” es un servicio de google Drive el cual permite a usuarios de todo el mundo escribir y ejecutar código Python sin necesidad de descargar o instalar alguna aplicación.

Este código queda guardado en tu cuenta de Google Drive (o sea, en la nube), y es ejecutado en computadoras de Google (por lo cual no importa que computadora estés usando), esto implica ciertas ventajas como el poder acceder a los archivos desde cualquier lugar o el poder trabajar en un mismo archivo de forma colaborativa (por eso el nombre “Colaboratory”).

También hay algunas limitaciones, como por ejemplo, dos usuarios no pueden modificar el mismo archivo a la vez (como si sucede Google Docs) y la capacidad de procesamiento disponible varía dependiendo de la disponibilidad de computadoras que tenga Google. La única gran desventaja es que es necesario tener una conexión a internet estable para poder guardar y ejecutar nuestro código. Más allá de esta última, las demás limitaciones son bastante leves, ya que Google probablemente no se va a quedar sin computadoras disponibles antes que nosotros e incluso con las limitaciones de colaboración, sigue siendo mucho más fácil trabajar en equipo con Google Colab que con cualquier otra alternativa. Por estos motivos, Google Colab es una plataforma ideal para principiantes que quieren ingresar al mundo de la inteligencia artificial y el análisis de datos.

Colab tiene un documento de bienvenida el cual actúa de forma similar a una visita guiada, mostrando ejemplos y dando enlaces de interés como este video el cual explica brevemente cómo usar Google Colaboratory.

¿Cómo usarlo?

Google Colab está basado en el proyecto Jupyter lo cual básicamente significa que funciona mediante bloques. Un documento de Colab vacío no se ve tan distinto a un documento de Doc o Word vacío. Para llenar el documento podemos crear dos tipos de bloques: bloques de código y bloques de texto.

Los bloques de código obviamente son en donde vamos a escribir nuestro código. Cada uno de estos bloques trae un botón con el clásico símbolo de “play” el cual nos permite ejecutar nuestro código. Una vez lo ejecutemos se desplegará una consola debajo del bloque mostrando nuestros resultados (si es que hay resultados que mostrar). Es importante tener en cuenta el orden de los bloques al momento de ejecutarlos, ya que ejecutarlos en desorden podría traer confusiones y complicaciones.

El formato de código en bloques también puede ser útil para aislar y encontrar errores en nuestro código. Ya que los bloques funcionan o fallan de forma individual.

Los bloques de texto por otro lado no se ejecutan, ya que son solo eso, texto. Aún así son bastante versátiles, permitiendo hacer varios tipos de encabezados, usar imágenes, escribir ecuaciones matemáticas, e incluso el definir títulos y secciones para luego hacer un índice del documento. Estos bloques son especialmente útiles para trabajar en equipo, ya que permiten que aquel que escribe el código pueda comunicar instrucciones, explicaciones o guías que ayuden a comprender el resto del documento, las tareas pendientes o cualquier otro tipo de mensaje. La gran ventaja es que estas instrucciones pueden ser leídas de forma cómoda y secuencial ya que al funcionar mediante bloques un documento de Colab puede tener bloques que expliquen cierta parte del código y a continuación el código al cual se hace referencia. Esto es es muy conveniente para explicar conceptos paso a paso.

Infinitas posibilidades

Colab permite únicamente trabajar con Python, pero esto no significa que otorgue pocas posibilidades. Ya que Python tiene una gran cantidad de librerías que son especialmente útiles para el desarrollo de modelos de inteligencia artificial y análisis de datos.

Importando ciertas librerías y con unas pocas línea de código es posible programar un bloque que devuelva una representación gráfica de datos.

También es posible visualizar un conjunto de datos en formato de tabla al estilo excel.

Y como siempre podemos imprimir todo tipo de información en la consola. Estas consolas también nos muestran mensajes de error, los cuales siempre son un punto de partida para poder solucionar problemas con nuestro código.

Introducción a Machine Learning - Regresión (2/2)

taa.admin — Thu, 11 Feb 2021 21:23:19 +0000

IMPORTANTE: Este artículo es la continuación de este artículo anterior , es recomendable empezar desde el principio para entender bien los conceptos y poder seguir los ejercicios.

¡Armá tu primer modelo de Machine Learning! En esta segunda parte (primera parte acá)explicaremos de forma sencilla y accesible los conceptos teóricos básicos y haremos una demostración práctica (explicada paso a paso) sobre cómo armar un modelo simple de Machine Learning, el cual a través de regresión polinomial es capaz de predecir valores de casas en Estados Unidos simplemente conociendo algunos de sus datos.

Vamos explorar los conceptos de polinomios (no hay que temer a la matemática, ya que Python se encargará de calcular) y regresión múltiple, además de la importancia y utilidad de separar el conjunto de datos inicial en conjuntos de entrenamiento y validación para poder evaluar la utilidad del mismo.

Polinomios y sus grados

Sin adentrarnos en demasiada matemática vamos a dar una pequeña explicación sobre los polinomios.

Un monomio es una combinación (expresión algebraica) de números y letras (variables) que consta de variables, coeficiente, y grado, estos distintos elementos se combinan exclusivamente a través de multiplicaciones. Esto puede sonar complicado pero es mucho más fácil entenderlo con un ejemplo.

Es correcto afirmar que el monomio4x3tiene:

Un coeficiente igual a 4
Una variable x
Un grado 3

Un polinomio entonces, tal y como lo indica la palabra (“poli” significa “muchos”) es un conjunto de monomios.

Un ejemplo de un polinomio puede ser:

Podemos decir que el ese polinomio entonces está compuesto por 5 monomios distintos. Es importante notar que lo que separa un polinomio de otro son los signos de suma o resta.

Para nosotros lo más importante de un polinomio es su grado. En el artículo anterior vimos que podemos representar cualquier recta con la ecuación:

y = mx + b

Según lo que acabamos de ver, mx + b es un polinomio de primer grado (ya que x elevado a grado 1 es igual a x). Igualando una variable y a polinomios de primer grado entonces podemos obtener rectas. Lo único que tenemos que variar es m y b, que si nos ponemos a pensar son coeficientes.

Variando los coeficientes de una expresión de segundo grado podemos ver algunas de las parábolas que podemos obtener.

¿Qué pasa si trabajamos con un polinomio de tercer grado?

¿Y de cuarto grado?

Podemos observar que a medida que aumentamos el grado del polinomio este puede “dibujar” cada vez más figuras.

En el anterior artículo mostramos cómo hacer una regresión lineal, la cual básicamente intentaba resumir lo mejor posible una nube de puntos en una línea recta. En este artículo vamos a mostrar como obtener mejores resultados a través de una regresión polinomial, la cual según acabamos de ver puede “dibujar” figuras más complejas con curvas, dando un mejor resultado.

Regresión múltiple

En el anterior ejercicio concluimos que una sola variable no era suficiente para predecir el valor de una casa. Algo que sabemos de forma intuitiva en la vida diaria, todos sabemos que por ejemplo una casa en la playa suele ser más cara que una casa del mismo tamaño en otro lugar.

Es necesario entonces recurrir a una regresión lineal pero con múltiples variables para evaluar si así conseguiremos mejores resultados.

Un detalle que puede llegar a ser intimidante es el hecho de que al trabajar con más dos variables ya no es posible graficar nuestra regresión en dos dimensiones. En el ejercicio sencillamente nos guiaremos únicamente con el valor de R2 sin necesidad de graficar, ya que estas son exclusivamente para poder explicar de forma visual que está haciendo nuestro modelo, no son necesarias para el funcionamiento del mismo.

La importancia de separar conjuntos de datos en validación y entrenamiento

En el artículo anterior mostramos cómo realizar una regresión lineal utilizando python, nuestra regresión lineal permite simplificar una nube de datos compleja en una sencilla recta. Es posible que hayas tenido que realizar ejercicios similares de forma manual en alguna tarea relacionada a física o química de forma de poder obtener el valor de una variable. La diferencia para este caso es que nosotros estamos interesados en crear una regresión la cual nos permita predecir valores, por lo que hay que tener en cuenta que el propósito de nuestro modelo es poder presentarle valores desconocidos fuera del dataset y que nos de resultados útiles. Por este motivo es importante no sólo utilizar métricas de error, sino que también mostrarle al modelo datos los cuales nunca ha visto. De esta forma, si las métricas de error nos dan buenos resultados con datos nunca antes vistos podemos asegurarnos de que el modelo verdaderamente está “aprendiendo” en lugar de solo “memorizando” y dará buenos resultados en el futuro.

La separación de datos en conjuntos de entrenamiento y validación es siempre recomendable, pero es importante tener suficientes datos, ya que si nuestro dataset es muy pequeño, podría ser perjudicial el no estar aprovechando cada dato posible para entrenar al modelo. Como en el anterior ejercicio vimos que el dataset contiene miles de filas (o sea, datos sobre miles de casas), podemos entonces separarlo en dos conjuntos más pequeños. Normalmente se sugiere dejar el 80% de los datos de nuestro dataset para entrenar al modelo y el restante 20% para evaluarlo, llegando en algunos casos a dejar 70% del dataset para entrenamiento y 30% para validación en caso de que el dataset sea pequeño.

En resumen entonces lo que vamos a hacer en este ejercicio es separar nuestro dataset que contiene información sobre casas para obtener dos datasets más pequeños. Uno de estos datasets lo usaremos para entrenar al modelo mientras que otro lo usaremos para evaluar al mismo, similar a como un profesor plantea pruebas para sus estudiantes para evaluar su aprendizaje. Mediremos el R2 obtenido con cada uno de los conjuntos de datos, obteniendo R2 en entrenamiento y R2 en validación. Siendo el R2 de validación con el que nos guiaremos para juzgar qué tan bueno es el modelo.

Te invitamos entonces a que vayas a este enlace de Google Colaboratory para ver de forma interactiva el ejercicio. Pondremos en práctica estos conocimientos obteniendo al final del ejercicio una regresión polinomial la cual toma en cuenta múltiples variables y evaluaremos sus resultados en los conjuntos de entrenamiento y validación.

¿Qué es Google Colaboratory?

Google Colaboratory (Google Colab para los amigos) es una herramienta que permite escribir y ejecutar código de forma colaborativa entre múltiples participantes, no requiere instalar ninguna aplicación ya que es 100% en línea y permite también ejecutar bloques individuales de código, con lo cual te mostraremos paso a paso cómo crear tu modelo.

Introducción a Machine Learning - Regresión (1/2)

taa.admin — Fri, 29 Jan 2021 18:11:15 +0000

La regresión es utilizada en todo tipo de industrias alrededor del mundo, es útil para predecir el valor de una propiedad inmobiliaria tal y como es útil para predecir el valor de un boleto de avión, las aplicaciones son infinitas. Casualmente también es la forma más sencilla y recomendad de entrar al mundo del Machine Learning, por este motivo es importante tener un entendimiento al menos básico de la misma. Para el final de esta publicación tendrás todo lo necesario para realizar tu primer modelo de predicción lineal con Python y sklearn (¡Incluyendo el código!).

En estadística la regresión lineal simple es un método matemático el cual estudia la relación lineal existente entre dos variables (de ser más variables sería regresión múltiple). Es importante destacar que la relación entre estas variables siempre será una relación estadística, es decir, no será “perfecta” o totalmente exacta, pero sí puede ser suficientemente cercana a la verdad como para ser útil.

La manera más sencilla de entender la regresión lineal es visualmente.

La anterior imagen muestra una serie de datos u observaciones representados como puntos en la gráfica. Es imposible encontrar una recta la cual pase por todos los puntos, pero si es posible encontrar la recta más representativa de todos esos puntos. Al encontrarla podría decirse que se está simplificando esta compleja nube de puntos en una sencilla recta.

Este artículo no detallará los métodos matemáticos necesarios para encontrar esta recta, ya que de eso se encargará Python, pero si se explicarán algunos conceptos básicos.

Rectas en pocas palabras

Una recta es una línea formada por una cantidad infinita de puntos a lo largo de una misma dirección (ocupando una sola dimensión). Toda recta puede ser representada mediante la siguiente ecuación:

y = mx + b

Además de las variables x e y tenemos la pendiente m y el término independiente b. La pendiente m determina la inclinación de la recta, si la inclinación es positiva podría decirse que la recta “va hacia arriba” mientras que si la inclinación es negativa “va hacia abajo”, lo cual no sería matemáticamente correcto pero si tiene sentido visualmente ya que leemos de izquierda a derecha.

Esta animación muestra el efecto de variar el valor m en la recta.

Esta animación muestra el efecto de variar el valor b en la recta

Métrica de error y R2

Como se mencionó anteriormente, las rectas obtenidas nunca serán perfectas, pero sí pueden ser útiles. Para juzgar su utilidad es necesario entonces calcular su error, es decir, que tan inexactas son. Para esto una de las herramientas más utilizadas es el coeficiente de determinación también conocido como R2score (en inglés) y comúnmente llamado sencillamente R2.

El valor de R2 toma en cuenta la distancia de cada de los puntos a la recta, como se muestra en la siguiente imagen.

Si utilizamos entonces una regresión lineal para predecir un valor, el valor de r2 nos dice que tan confiable es esa predicción.

Significado de los valores de R2 en pocas palabras:

1 es el valor máximo posible, un resultado de 1 significa que la recta se ajusta perfectamente a los puntos. Esto es imposible en el mundo real y suele indicar que hay algún error en el modelo, se suele decir que este valor es “demasiado bueno para ser real”
Un valor mayor a 0,7 significa que el modelo es bueno y útil la mayoría de los casos del mundo real.
Un valor entre 0,5 y 0 es un modelo debido, probablemente no sea de mucha utilidad en el mundo real
Un valor negativo da resultados pésimos.

Creando tu primer modelo

Ahora que sabes lo básico es hora d2e crear tu primer modelo. Por eso te invitamos a que abras este enlace de Google Colab, donde te mostraremos de forma interactiva cómo crear tu propia regresión lineal.

Google Colab es una herramienta que permite escribir y ejecutar código de forma colaborativa entre múltiples participantes, no requiere instalar ninguna aplicación ya que es 100% en línea y permite también ejecutar bloques individuales de código, con lo cual te mostraremos paso a paso cómo crear tu modelo.

Tensorflow, errores en código

giani.carlevaro — Wed, 16 Dec 2020 01:43:36 +0000

Hola, perdón consulto porque he estado intentando solucionar el siguiente error pero no he podido: al utilizar model.train(input_fn= funcion_entrada, steps=8000) da error estuve intentando solucionarlo y creo es porque en migración de la versión v1 a la v2 de tensorflow dejó de funcionar algunas pude solucionarlas agregando compat.v1 pero no he podido con: model.train(input_fn= funcion_entrada, steps=8000)

Me da el siguiente error:

ValueError Traceback (most recent call last) in ()----> 1 modelo.train(input_fn=funcion_entrada, steps=8000)

6 frames

/usr/local/lib/python3.6/dist-packages/tensorflow_estimator/python/estimator/canned/optimizers.py in get_optimizer_instance_v2(opt, learning_rate) 143 raise ValueError( 144 'The given object is not a tf.keras.optimizers.Optimizer instance.'--> 145 ' Given: {}'.format(opt)) 146 return opt ValueError: The given object is not a tf.keras.optimizers.Optimizer instance. Given:

Muchas gracias!

Saludos,

Mauro.

Aprendizaje supervisado

taa.admin — Thu, 03 Dec 2020 18:26:32 +0000

Una introducción

El objetivo de la inteligencia artificial es el permitirle a las computadoras desarrollar habilidades que típicamente requieren inteligencia humana.

El Machine learning o aprendizaje automático es una sub-rama de la inteligencia artificial, podría decirse que el Machine Learning es el estudio y aplicación de cierto tipo de técnicas con las cuales es posible desarrollar inteligencia artificial. La razón por la cual se le dice aprendizaje automático es porque este tipo de aplicación permite que las computadoras aprendan sin necesidad de intervención humana.

Esta sub-rama contiene otras sub-ramas como el aprendizaje reforzado, el aprendizaje no supervisado, el aprendizaje semi-supervisado, y el aprendizaje supervisado. Sobre este último tratará este artículo.

¿Qué es?

El aprendizaje supervisado es una modalidad del Machine Learning donde la computadora aprende a reconocer patrones partir de los datos ingresados, etiquetados y clasificados por un ser humano. Para entregar algún tipo de resultado específico deseado. Este tipo de aprendizaje es el más sencillo y más adoptado en todo el mundo.

¿Para qué se utiliza?

El aprendizaje supervisado es utilizado por bancos de todo el mundo para la detección de transacciones fraudulentas.

También es utilizado en el ámbito de la medicina para detectar cáncer de piel y otro tipo de enfermedades.

El año 2019, en el primer challenge de la plataforma AiUteChallenge se utilizó para predecir la probabilidad de abandono de distintos estudiantes de UTEC.

¿Cómo funciona?

El aprendizaje supervisado funciona a través de ejemplos, se le entrega a la máquina un conjunto de datos etiquetados para que aprenda a reconocer patrones, de forma de detectarlos al ver datos nuevos sin etiquetar. El concepto de etiquetar se explicará más adelante.

El aprendizaje supervisado tiene dos modalidades principales para ser utilizado, estas son la regresión y clasificación.

Regresión

La regresión es una de las modalidades más simples de Machine Learning, lo que significa que también es una de las más rápidas, consume pocos recursos y su funcionamiento es mucho más transparente y fácil de entender, por lo cual es una de las modalidades más accesibles para principiantes.

La regresión consiste en darle datos a una máquina para que esta intente comprender la relación entre distintas variables, de esta forma es posible predecir, pronosticar y encontrar resultados. Un buen ejemplo sería predecir la calificación que obtendrá un estudiante en un examen a partir de sus horas de estudio y su asistencia a clases.

Los ejemplos de la vida real pueden ser una buena manera de aprender conceptos, para lo cual tenemos la siguiente gráfica.

La anterior gráfica obtenida a través de Google Trends muestra las búsquedas relacionadas a la canción “All I Want For Christmas is You” (“Todo lo que quiero para navidad eres tú” en español) de Mariah Carey, una de las canciones navideñas más famosas de Estados Unidos.

Cada pico de interés corresponde al mes de diciembre de cada año, la gráfica llega hasta el día 2 de diciembre del 2020. Si alguien pidiera que dibujaras la continuación de esa gráfica ¿Qué harías? Lo más probable es que dibujaras otro pico en el mes de diciembre que bajara tan rápido como subió ¿Por qué es tan obvia esta conclusión? Porque lo mismo sucede todos los años.

Este tipo de razonamiento sencillo es bastante similar a como funciona una regresión, el cerebro humano instintivamente es capaz de encontrar la relación entre las variables de tiempo y la popularidad de esta canción.

La regresión consiste en otorgarle a una computadora estas mismas capacidades de relacionar variables a través de matemática, evitando así los posibles sesgos y errores humanos. Sin mencionar el hecho de que una máquina puede manejar una mayor cantidad de variables y datos.

Para lograr esto hay una gran variedad de técnicas de regresión, estas son algunas de ellas:

Regresión Lineal (Linear Regression)
Regresión Logística (Logistic Regression)
Regresión de Ridge (Ridge Regression)
Regresión de Lasso (Lasso Regression)
Regresión polinómica (Polynomial Regression)
Regresión Lineal Bayesiana (Bayesian Linear Regression)

Clasificación

Para explicar cómo funciona la clasificación usaremos como ejemplo el desafío de 2019 del aiutechallenge.

Este desafío constaba de predecir la probabilidad de que un estudiante abandonara sus estudios en UTEC a partir de varios tipos de datos, usaremos una versión simplificada de ejemplo.

Supongamos que tenemos una planilla de datos anónimos de distintos estudiantes. Esta planilla vamos a dividirla en dos secciones, una sección para entrenar a la computadora, la cual estará etiquetada y otra sección para evaluarla, la cual no tendrá etiquetas. Similar a como en una clase un docente le entrega a los estudiantes las soluciones de los ejercicios de práctica pero entrega estas durante un examen.

La siguiente tabla sería la sección de entrenamiento de la planilla, decimos que está etiquetada. Las etiquetas se encuentran en la última columna, la cual especifica si el estudiante abandonó o no, la etiqueta de cada fila entonces es este valor binario (ya que solo puede tener dos valores: “si” o “no”). Las columnas de datos que no corresponden a la etiqueta son conocidas como preguntas.

Nº	Edad	Carrera	Trabaja (Si/no)	Horas de trabajo semanales	Promedio de notas	Semestres cursados	¿Abandonó? (Si/no)
1	24	ILOG	Si	20	4,60	5	No
2	20	IMEC	No	0	3,05	3	No
3	19	IEE	No	0	2,79	2	Si
4	33	TJMC	Si	60	2,10	1	Si
…	…	…	…	…	…	…	…
800	36	TMSPL	Si	30	3,36	6	No

Esto es entonces un problema de clasificación donde tenemos dos conjuntos, por un lado tenemos el conjunto de aquellos que abandonan y por otro tenemos el conjunto de aquellos que no abandonan su carrera. La idea es que luego de que la máquina haya sido entrenada podamos mostrarle los datos de evaluación los cuales no están etiquetados y que esta nos devuelva resultados precisos la mayoría de las veces.

Se dice que en el aprendizaje supervisado las salidas de datos son conocidas o esperadas, esto implica que sabemos qué tipo de respuesta podemos obtener de la inteligencia artificial. En este caso sabemos que obtendremos un número, una probabilidad entre 0% y 100% de que ese estudiante pertenezca a un conjunto o a otro.

La idea entonces es que una vez le demos los resultados sin etiquetar a la máquina, esta nos devuelva un resultado similar a este:

Nº	Edad	Carrera	Trabaja (Si/no)	Horas de trabajo semanales	Promedio de notas	Semestres cursados	Probabilidad de abandono
1	36	ILOG	Si	20	4,67	7	15,34%
2	20	IMEC	No	0	2,01	1	78,02%
3	42	IEE	Si	50	1,56	1	90,35%
4	18	TJMC	Si	6	2,60	2	22,24%
…	…	…	…	…	…	…	…
200	24	TMSPL	No	0	4,36	3	5,45%

La clasificación es utilizada en gran cantidad de ámbitos para tareas como reconocimiento de imágenes, reconocimiento de lenguaje, sistemas de recomendación, entre muchos otros.

También puedes participar del challenge AIA2C: AI applied 2 Cybersecurity donde es necesario clasificar diferentes tipos de eventos en la red.

¿Cómo puede una computadora comprender el lenguaje humano?

taa.admin — Mon, 09 Nov 2020 15:14:58 +0000

El procesamiento del lenguaje natural (NLP, por sus siglas en inglés) es una rama de la inteligencia artificial que ayuda a las computadoras a entender, interpretar y manipular el lenguaje humano. Toma elementos prestados de varias disciplinas, incluyendo la ciencia de la computación y la lingüística computacional, en su afán por cerrar la brecha entre la comunicación humana y el entendimiento de las computadoras.

Compartimos el link para que puedas conocer más sobre esta rama de IA

https://www.sas.com/es_ar/insights/analytics/what-is-natural-language-processing-nlp.html

Categorías de ML

taa.admin — Mon, 09 Nov 2020 15:13:42 +0000

Los algoritmos de Machine Learning se dividen en tres categorías:

Aprendizaje supervisado: Son algoritmos que cuentan con un aprendizaje previo basado en un sistema de etiquetas asociadas a datos que les permiten tomar decisiones o hacer predicciones. Un ejemplo es un detector de spam que etiqueta un e-mail como spam o no, dependiendo de los patrones que ha aprendido del histórico de correos (remitente, relación texto/imágenes, palabras clave en el asunto, etc.).
Aprendizaje no supervisado: A diferencia de los anteriores, estos algoritmos no cuentan con un conocimiento previo, se enfrentan al caos de datos con el objetivo de encontrar patrones que permitan organizarlos de alguna manera. Por ejemplo, en el campo del marketing se utilizan para extraer patrones de datos masivos provenientes de las redes sociales y crear campañas de publicidad altamente segmentadas.
Aprendizaje por refuerzo: Su objetivo es que un algoritmo aprenda a partir de la propia experiencia. Esto es, que sea capaz de tomar la mejor decisión ante diferentes situaciones de acuerdo a un proceso de prueba y error en el que se recompensan las decisiones correctas. En la actualidad se está utilizando para posibilitar el reconocimiento facial, hacer diagnósticos médicos o clasificar secuencias de ADN.

Complementá la info ingresando al siguiente link

https://www.iberdrola.com/innovacion/machine-learning-aprendizaje-automatico