Detectando Sesgos y Estereotipos en Modelos de IA

Detectando Sesgos y Estereotipos en Modelos de IA

ID: SOL-2117
Autor: martin.zanoniani
Fecha publicación: 11/02/2026

RESUMEN

La investigación utilizó la herramienta EDIA para cuantificar específicamente los sesgos ocupacionales. Los resultados confirman que la IA tiende a perpetuar y reforzar estereotipos sociales, como la fuerte asociación del hombre con roles de «guardián» y de la mujer con ocupaciones como «bibliotecaria». 

En conclusión, la existencia de estos sesgos representa una seria amenaza para la equidad, la justicia y la objetividad en los sistemas de IA. Para abordar este desafío, se proponen cinco líneas de acción esenciales para un desarrollo tecnológico más ético y responsable:

  1. Mejorar la calidad y la diversidad de los datos de entrenamiento. 
  2. Aplicar técnicas para mitigar activamente (debiasing) los sesgos detectados.
  3. Fomentar la transparencia (Explicabilidad de la IA – XAI) sobre cómo operan los modelos. 
  4. Promover la diversidad en los equipos de desarrollo de IA. 
  5. Establecer marcos regulatorios sólidos y claros.

 

Introducción

La creciente aplicación de la Inteligencia Artificial (IA) en sistemas críticos plantea la problemática fundamental de los sesgos algorítmicos. Un sesgo se define como una inclinación sistemática e injusta en los resultados de un modelo, producto de imperfecciones o prejuicios preexistentes en los datos de entrenamiento o en el diseño del algoritmo.

En el ámbito del Procesamiento del Lenguaje Natural (PLN), estos sesgos adquieren especial relevancia, ya que los modelos utilizados para analizar noticias o publicaciones en redes sociales pueden reproducir estereotipos y prejuicios sociales, afectando la detección de noticias falsas y desinformación. En el contexto uruguayo, donde los medios digitales y las plataformas sociales cumplen un rol central en la construcción de opinión pública, analizar y mitigar estos sesgos resulta clave para garantizar un uso ético y responsable de la IA.

Objetivo del informe

Objetivo general:

Identificar y analizar los sesgos presentes en modelos de lenguaje natural utilizados en el análisis de noticias y redes sociales, evaluando su impacto en la detección de desinformación.

Objetivos específicos:

  • Tipificar las principales fuentes de sesgo (muestreo, histórico, de representación, entre otros). 
  • Evaluar cómo dichos sesgos influyen en la interpretación y clasificación de textos en el contexto local. 
  • Aplicar herramientas de PLN para evidenciar posibles patrones de sesgo.
  • Proponer estrategias de mitigación orientadas a un uso más ético, transparente y justo de los sistemas basados en IA.

Fundamentos teóricos y éticos

Sesgo

En inteligencia artificial, el sesgo se refiere a la tendencia sistemática de un modelo a producir resultados que reflejan prejuicios o inequidades presentes en los datos de entrenamiento o en el diseño del algoritmo (Caliskan, Bryson & Narayanan, 2017). Este fenómeno ocurre porque los modelos aprenden patrones estadísticos a partir de información histórica, y si estos datos contienen representaciones desproporcionadas, omisiones o prejuicios sociales, el sistema de IA puede reproducirlos e incluso amplificarlos. Por ejemplo, un modelo de selección de personal entrenado con datos de contrataciones históricas puede favorecer automáticamente a candidatos de ciertos géneros o etnias si en el pasado predominaban en posiciones de liderazgo. Así, el sesgo no es simplemente un error técnico, sino una manifestación de inequidades preexistentes, y puede generar decisiones injustas que afectan directamente la vida de personas o grupos sociales, perpetuando discriminación estructural.

Estereotipo

Un estereotipo es una generalización simplificada y rígida sobre las características, comportamientos o roles de un grupo social. En el contexto de los modelos de lenguaje, los estereotipos pueden ser aprendidos automáticamente a partir de grandes corpus textuales, reflejando prejuicios culturales o sociales existentes (Bolukbasi et al., 2016). Por ejemplo, un modelo puede asociar automáticamente “mujer” con profesiones de cuidado o tareas domésticas y “hombre” con profesiones técnicas o de liderazgo. Este aprendizaje automático de estereotipos puede influir en la generación de textos, la interpretación de información o la clasificación de datos, reforzando concepciones sociales injustas. Además, los estereotipos aprendidos por la IA no solo reflejan la realidad social, sino que tienen el potencial de moldearla al reforzar percepciones discriminatorias y limitar la diversidad de oportunidades para ciertos grupos. 

Discriminación algorítmica

La discriminación algorítmica se produce cuando los sistemas automatizados generan desigualdades o desventajas para individuos o colectivos específicos como resultado de decisiones basadas en datos o reglas del algoritmo (Mehrabi et al., 2021). Esta discriminación puede ser directa, por ejemplo, al negar préstamos a personas de ciertos barrios históricamente desfavorecidos, o indirecta, al favorecer automáticamente perfiles que coinciden con patrones mayoritarios de éxito en los datos de entrenamiento. A diferencia de la discriminación humana, que puede ser intencional, la discriminación algorítmica muchas veces es inadvertida y difícil de detectar, ya que emerge de la interacción compleja entre datos, modelos y procesos de decisión. Por ello, se requieren mecanismos de auditoría, transparencia y corrección para prevenir que estas desigualdades se perpetúen en contextos sociales sensibles. 

Importancia ética en la IA

La ética es fundamental en la IA para asegurar que se desarrolle y utilice de forma responsable, respetando los derechos humanos, la justicia y la equidad. Su importancia radica en prevenir daños, sesgos y discriminación, además de garantizar que la tecnología beneficie a la sociedad en su conjunto. 

El objetivo final de la ética en la IA es optimizar su impacto positivo y reducir los resultados negativos, asegurando que la tecnología sirva a la humanidad sin causar daño.

Metodología

Descripción de los pasos seguidos (Para detectar Sesgos en IA)

El análisis se centró en la detección y cuantificación de sesgos de género incrustados en modelos de Inteligencia Artificial, específicamente aquellos que manifiestan una asociación estereotípica entre diversas profesiones y el género. El proceso metodológico se estructuró de la siguiente manera: 

  1. Definición del alcance: Se delimitó el área de estudio a los sesgos ocupacionales, seleccionando un corpus de palabras temáticas que representan diversas profesiones (ej. ‘ingeniero’, ‘enfermera’). 
  2. Selección de la métrica de sesgo: Se determinó el tipo de sesgo a medir, enfocándose en la asociación estereotípica de dichas profesiones con un género predominante. 
  3. Ejecución del análisis: Se utilizó la herramienta seleccionada para procesar la lista de profesiones y cuantificar la intensidad y la dirección del sesgo de género inherente en el modelo de lenguaje subyacente. 
  4. Registro y evaluación: Los resultados obtenidos, que indican la magnitud del sesgo, fueron sistemáticamente registrados para su posterior análisis e interpretación crítica en el contexto de la equidad de género. 

“Dataset” utilizado

Para este análisis utilicé el conjunto de datos Spanish News Classification Dataset, disponible en la plataforma Kaggle. Este dataset contiene noticias en idioma español clasificadas en diversas categorías, y fue utilizado como corpus base para explorar las representaciones semánticas de las palabras en modelos de lenguaje natural.

A partir de dicho corpus se extrajo un conjunto representativo de términos asociados a profesiones y roles sociales, con el propósito de identificar posibles sesgos de género en su distribución vectorial. Las palabras seleccionadas para el análisis fueron las siguientes:

palabras_a_graficar = [
"empresario", "militar", "médico", "policía", "carpintero",
"albañil", "chofer", "pescador", "fontanero", "jardinero",
"guardabosques", "taxista", "bombero", "contador", "obrero",
"chef", "electricista", "agricultor", "geólogo", "operario",
"constructor", "enfermera", "maestra", "cuidadora", "modista",
"asistente", "peluquera", "niñera", "auxiliar", "bibliotecaria",
"psicóloga", "administradora", "empleada", "recepcionista",
"guardería", "profesora", "cajera", "vendedora", "camarera",
"diseñadora", "actriz", "enfermería", "fotógrafa", "educadora",
"nutricionista", "cocinera", "señora", "señor"
]

El análisis de sesgos se realizó mediante la herramienta EDIA Full ES, desarrollada por Vía Libre y disponible también en su entorno interactivo https://edia.ngrok.app. Esta herramienta permite identificar y cuantificar asociaciones estereotípicas entre palabras dentro de los embeddings del modelo, facilitando la detección de sesgos de género en el espacio semántico generado a partir del corpus.

Herramientas de análisis

La principal herramienta empleada para la detección y cuantificación de los sesgos fue EDIA (Embeddings for Detecting and Identifying Anti-stereotypes), accesible a través de la plataforma Hugging Face. La elección de EDIA se basó en su capacidad para analizar las representaciones vectoriales (embeddings) del lenguaje y medir las distancias semánticas, lo que permite objetivar la fuerza de las asociaciones estereotípicas que el modelo ha aprendido de los datos de entrenamiento.

La ética es fundamental en la IA para asegurar que se desarrolle y utilice de forma responsable, respetando los derechos humanos, la justicia y la equidad. Su importancia radica en prevenir daños, sesgos y discriminación, además de garantizar que la tecnología beneficie a la sociedad en su conjunto. 

El objetivo final de la ética en la IA es optimizar su impacto positivo y reducir los resultados negativos, asegurando que la tecnología sirva a la humanidad sin causar daño.

Caracterización de los sesgos

Ejemplos de sesgos globales en IA:

Sesgo racial en reconocimiento facial: Algoritmos presentan tasas de error significativamente más altas (falsos positivos) para personas de piel oscura, especialmente mujeres, en comparación con hombres blancos, lo que puede incrementar la vigilancia desproporcionada.

Estereotipos ocupacionales en IA generativa: Modelos de generación de imágenes (como DALL-E) asocian profesiones de alta jerarquía (ej. «CEO») con hombres blancos y roles de servicio (ej. «enfermera») con mujeres, perpetuando estereotipos de género.

Ejemplos y desafíos locales en Uruguay:

Sesgo de representación local: Existe el riesgo de que modelos de lenguaje globales adaptados al contexto uruguayo no capturen adecuadamente la diversidad cultural y lingüística específica, generando resultados inexactos o sesgados para subpoblaciones.

Resultados

Este experimento se centró en analizar los sesgos de género asociados a las profesiones, y los hallazgos arrojaron evidencias sustanciales de estas distorsiones algorítmicas.

El modelo de lenguaje demostró una marcada tendencia a vincular al género masculino con roles tradicionales de autoridad o seguridad, como el término «guardián», y al género femenino con ocupaciones estereotipadas de cuidado o servicio de apoyo, ilustrado por la fuerte asociación con el término «bibliotecaria».

Esta diferenciación automática no solo refleja los estereotipos ocupacionales existentes en la sociedad, sino que también indica que la IA los refuerza y perpetúa a través de su lenguaje. La implicación es que el modelo, al ser consultado, tenderá a generar resultados que favorecen sistemáticamente un género sobre otro para ciertas carreras, lo cual puede limitar las percepciones de oportunidades y contribuir a la discriminación de género en contextos de aplicación real. Este patrón subraya la urgente necesidad de una intervención ética en las fuentes de datos.

Propuestas para mitigar los sesgos

La mitigación de los sesgos en los modelos de lenguaje natural requiere un abordaje multidimensional que combine aspectos técnicos, éticos y sociales. A continuación, se presentan estrategias orientadas a construir sistemas más justos, interpretables y responsables.

1. Desarrollo del clasificador

Un clasificador ético y justo, esto implica:

  1. Incorporar etapas de auditoría de datos antes del entrenamiento, verificando la representatividad de los conjuntos y eliminando ejemplos desbalanceados.
  2. Emplear métricas de equidad durante la validación del modelo.
  3. Integrar mecanismos de aprendizaje adversarial o regularización de sesgo para minimizar correlaciones espurias entre atributos sensibles (género, edad, etnia) y las etiquetas de salida.
  4. Documentar las decisiones del pipeline mediante Model Cards y Datasheets for Datasets que describan las limitaciones y riesgos éticos.

2. Uso de herramientas existentes

Para el análisis y mitigación de sesgos se recomienda el uso de herramientas abiertas como Hugging Face – EDIA, que permite identificar asociaciones estereotípicas en embeddings lingüísticos y cuantificar su magnitud.

Otras alternativas complementarias incluyen AI Fairness 360 (IBM), Fairlearn (Microsoft) y What-If Tool (Google), que facilitan la comparación de modelos y la visualización de sesgos.

3. Casos de uso en ámbitos críticos

La mitigación del sesgo es particularmente relevante en contextos donde las decisiones automatizadas impactan derechos o acceso a oportunidades.

  • Educación: evitar modelos que refuercen estereotipos de desempeño académico según género o contexto socioeconómico.
  • Salud: garantizar diagnósticos justos y prevenir errores asociados a datos clínicos no representativos.
  • Medios y comunicación: detectar y corregir sesgos en la moderación de contenidos o en la generación automática de noticias, promoviendo una información equilibrada y sin sesgos culturales o de género.
  • Administración pública: aplicar modelos explicables en la evaluación de políticas o beneficios sociales, asegurando la transparencia y la trazabilidad de las decisiones.

Conclusiones

En relación con los hallazgos observados, se argumenta la significativa amenaza que representan los sesgos a los modelos de Inteligencia Artificial (IA), dada su capacidad para distorsionar la información y perpetuar narrativas incorrectas, lo cual está condicionado por la calidad de los datos de entrenamiento.

Para contrarrestar la amplificación de sesgos y promover un desarrollo tecnológico responsable, se proponen las siguientes líneas de acción enfocadas en la equidad algorítmica y el uso ético de la IA:

  1. Mejora en la curación y balanceo de datos: Implementar auditorías para identificar y eliminar fuentes de sesgo en los datasets, asegurando un balanceo activo que garantice la representación equitativa de todos los grupos demográficos.
  2. Implementación de técnicas de debias: Adoptar metodologías de desviado (debiasing) algorítmico en las distintas fases del desarrollo del modelo para neutralizar las asociaciones estereotípicas aprendidas.
  3. Desarrollo de transparencia: Impulsar la creación de modelos interpretables (XAI), facilitando la comprensión del razonamiento subyacente y estableciendo mecanismos de accountability por resultados perjudiciales.
  4. Fomento de la diversidad en los equipos: Garantizar la diversidad en los equipos de diseño y validación de IA, ya que múltiples perspectivas son cruciales para identificar y corregir sesgos inadvertidos.
  5. Marco regulatorio y guías éticas: Apoyar la implementación de marcos normativos que exijan la auditoría de sesgos y la gestión de riesgos en el despliegue de la IA, especialmente en áreas de alto impacto social.

Bibliografía / Webgrafía

Bolukbasi, T., Chang, K. W., Zou, J. Y., Saligrama, V., & Kalai, A. T. (2016). Man is to computer programmer as woman is to homemaker? Debiasing word embeddings. In Advances in Neural Information Processing Systems (Vol. 29, pp. 4349-4357). NeurIPS. https://doi.org/10.48550/arXiv.1607.06520

Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183-186. https://doi.org/10.1126/science.aal4230

Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys, 54(6), Article 115. https://doi.org/10.1145/3457607

SAP. (2024, 30 de octubre). ¿Qué es el sesgo de la IA? Causas, efectos y estrategias de mitigación. SAP España. https://www.sap.com/spain/resources/what-

is-ai-bias Chugh, V. (2024, 29 de julio). Ética de la IA: Introducción. DataCamp.
https://www.datacamp.com/es/blog/ai-ethics-introduction

Empower Talent. (s. f.). Ética de la Inteligencia Artificial – Postgrados Universitarios. https://empowertalent.com/etica-de-la-inteligencia-artificial/

Vialibre. (s. f.). EDIA Full ES – A Hugging Face Space. Hugging Face. https://huggingface.co/spaces/vialibre/edia_full_es

López Martínez, F., & García Peña, J. H. (2024). IA y sesgos: una visión alternativa expresada desde la ética y el derecho. Informática y Derecho. Revista Iberoamericana de Derecho Informático (2.ª época), 1(15), 109-121.
https://revistas.fcu.edu.uy/index.php/informaticayderecho/article/view/4738

UNESCO. (2021). Recomendación sobre la Ética de la Inteligencia Artificial. París: Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura. https://unesdoc.unesco.org/ark:/48223/pf0000381137

Anexos

Anexo 2. Mapa 2D de embeddings (PCA) – Profesiones y términos de género

El gráfico muestra la representación bidimensional obtenida mediante el método de Análisis de Componentes Principales (PCA) a partir de los vectores de palabras (word embeddings) generados por el modelo de lenguaje.

Cada punto representa una palabra del conjunto de profesiones analizadas, mientras que las palabras “señora” y “señor” se destacan en color rojo por su relevancia en el análisis de sesgos de género.
La disposición espacial de los puntos refleja las relaciones semánticas aprendidas por el modelo: palabras ubicadas próximas comparten significados o contextos similares dentro del espacio lingüístico.

0 Comments

Submit a Comment

This site uses User Verification plugin to reduce spam. See how your comment data is processed.