¿Por qué si buscas en Google Imágenes la palabra “Policía” en la mayoría de imágenes sólo aparecen hombres y en las que aparecen mujeres visten de forma provocativa? ¿Por qué muchos resultados de búsquedas de minorías étnicas muestran imágenes negativas?

Los algoritmos y los recomendadores Big Data forman parte de nuestro día a día. Por medio del análisis de la información sobre nuestros gustos, opiniones y comportamientos son capaces de determinar los medios y los productos que consumimos. Incluso, nos ayudan a buscar pareja.

Una muestra de los resultados de la búsqueda “Policía” en Google Imágenes

Su influencia también llega al mundo off-line: la analítica de datos puede ayudar a determinar el mejor candidato para un puesto de trabajo o la concesión de una hipoteca. Que tu código postal indique que vives en un barrio con una renta per cápita baja puede ser un dato objetivo que juegue en tu contra a la hora de aprobar un préstamo hipotecario.

Sara Hajian es investigadora en la unidad de investigación en Data Science de Eurecat. Explica que hoy los recomendadores artificiales toman más decisiones que antes tomaban los humanos. Y añade: “A pesar de que una decisión tomada por un algoritmo esté hecha de acuerdo con criterios objetivos, puede suponer una discriminación no intencionada. Las máquinas aprenden de nuestros prejuicios y estereotipos“.

La investigación en Data Science ofrece la posibilidad de mitigar la discriminación por defecto para fomentar la antidiscriminación por diseño en el desarrollo de nuevos algoritmos. O dicho de otro modo. “Se trata de desarrollar algoritmos que eviten que nuestro móvil sólo sugiera contenidos estereotipados al rol femenino por el solo hecho de detectar que el usuario del dispositivo es una mujer“, explica.

Sara Hajian es investigadora de la Unidad de Data Science de Eurecat

Hajian está especializada en el desarrollo de algoritmos antidiscriminación por diseño, es decir, ya integrado. Recientemente ha publicado el estudio “Algorithmic Bias: From Discriminación Discovery to Fairness-aware Data Mining”. Hajin ha mostrado parte de los resultados de la investigación en la sesión de debate “Algorithmic Gender Discrimination, Sexism and Data (In)Equalities” de la conferencia Computers, Privacy & Data Protection que tuvo lugar en Bruselas el pasado mes de enero y en el Data Beers de Barcelona.

El trabajo propone una metodología en 3 fases para el tratamiento de datos.

Antidiscriminación por diseño

En la fase de pre-procesamiento de la información, la estrategia utilizada consiste en controlar la distorsión del conjunto de datos. “En la práctica, supone eliminar datos sensibles de potenciar la discriminación como el código postal, el género o la raza para que no se puedan extraer modelos de decisión que discriminen”, explica.

Una vez tenemos los datos, hay que hacer una aproximación ética que integre la antidiscriminación por diseño. Esto supone modificar los algoritmos de data mining para que no contengan decisiones injustas.

En la tercera fase, se proponen tareas de postprocesamiento de los modelos de extracción de datos obtenidos en vez de limpiar el conjunto de datos original o cambiar los algoritmos de minería de datos.

“De esta manera, comenzaremos realmente a trabajar en modelos antidiscriminación. La personalización es buena pero hasta cierto punto porque quizás nuestros intereses no se ajustan al de los roles mayoritarios“, concluye Hajian.