“Hay muchos motivos para ser precavidos y no confiar tanto en los algoritmos como árbitros finales de las decisiones, ya que, en el mejor de los casos, solo proporcionan perspectivas útiles. Cualquier reclamo de justicia de los algoritmos debe calificarse por el hecho de que el proceso de toma de decisiones algorítmica tiene dos elementos clave: i) programadores humanos que toman decisiones críticas para enmarcar el problema y la validez del resultado, y ii) datos que pueden representar sesgos históricos, tergiversar grupos o no representarlos en absoluto.” (UNESCO)

_________________________________________________________

Publicado en 2021 por la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO). © UNESCO 2021. Esta publicación está disponible en Acceso Abierto bajo la licencia Attribution-ShareAlike 3.0 IGO (CC-BY-SA 3.0 IGO)

___________________________

El aporte de la inteligencia artificial y las TIC avanzadas a las sociedades del conocimiento. Una perspectiva de Derechos, Apertura, Acceso y Múltiples actores.

4. Derecho a la Igualdad

Si bien muchas personas no experimentan discriminación al navegar por la red invisible de algoritmos que nos rodea, hay muchas que siguen siendo marginadas, discriminadas, privadas de oportunidades o que experimentan los efectos adversos de la adopción de ciertas decisiones algorítmicas. Por ejemplo:

• En 2010, cuando la investigadora Safiya Umoja Noble buscó el término “chicas negras” en Google, encontró páginas en las que predominaba el contenido pornográfico. Aunque los resultados de la búsqueda del término ya no muestran contenido pornográfico, una búsqueda similar para “chicas asiáticas” dio resultados con un alto contenido sexual (Snow, 2018b).

• El programa de Amazon para automatizar su proceso de contratación utilizó un algoritmo que fue entrenado a través del análisis de los currículos presentados a la empresa durante un período de 10 años. Los resultados mostraron un sesgo contra las candidatas, ya que el algoritmo se enseñó a sí mismo a dar una calificación más baja a los currículos que incluían expresiones como “capitana del club de ajedrez femenino”. Los resultados reflejaban las desigualdades de género existentes en la industria tecnológica. De hecho, más del 60 % de los empleados de las empresas GAFAM2 son hombres, y las cifras son mucho más altas si solo se consideran las funciones técnicas (Dastin, 2018).

2 GAFAM es el acrónimo de Google, Apple, Facebook, Amazon y Microsoft.

• La investigación del software COMPAS utilizado por los tribunales de los Estados Unidos para predecir la reincidencia (la tendencia de un delincuente condenado a reincidir) reveló un sesgo contra los afroamericanos (Angwin, Larson, Mattu y Kirchner, 2016).

• Se ha comprobado que los algoritmos de riesgo crediticio discriminan a los posibles prestatarios en función de su ubicación geográfica. Si bien los clasificadores explícitos como la raza y el origen étnico pueden esconderse de los algoritmos, esas variables pueden correlacionarse con otros clasificadores, como la ubicación geográfica. Por lo tanto, los algoritmos terminan asignando puntuaciones crediticias discriminatorias desde el punto de vista racial incluso cuando la raza no se utiliza como insumo (O’Dwyer, 2018).

Los algoritmos se arraigarán aún más profundamente en la vida de muchas personas, dado el rápido ritmo con que se está produciendo el proceso de “datización” a medida que se desarrolla el campo de la IA. Por lo tanto, es importante considerar cómo los algoritmos pueden impedir el derecho de las personas a la igualdad.

La inclusión social es uno de los mandatos fundamentales de la UNESCO y consiste en trabajar para construir sociedades del conocimiento que sean socialmente inclusivas, de modo que todos los individuos y grupos puedan participar en la sociedad.

A su vez, esto depende de “mejorar la capacidad, las oportunidades y la dignidad de las personas desfavorecidas, sobre la base de su identidad, para participar en la sociedad” (Banco Mundial, 2013). El mismo sentimiento de que nadie debe quedarse atrás impregna los ODS y refuerza los esfuerzos de la UNESCO en este ámbito. Frente a estos objetivos, la violación sistémica del derecho de cada persona a la igualdad es, en principio, un obstáculo para la inclusión.

Esta sección se centra en la discriminación que surge de las diferentes formas de toma de decisiones automatizadas que afectan el derecho a la igualdad. Se identifican los puntos de entrada para la discriminación a través de algoritmos (a veces integrados en el procesamiento de IA). Además, se proponen posibles enfoques técnicos y no técnicos del problema. Sin embargo, cualquier reflexión de este tipo corre el riesgo de generar confusión si no se aborda una cuestión fundamental: ¿Qué es la discriminación?

4.1. ¿Qué es la discriminación?

El artículo 1 de la Declaración Universal de Derechos Humanos proclama que “Todos los seres humanos nacen libres e iguales en dignidad y derechos” y el artículo 2 establece que “Toda persona tiene los derechos y libertades proclamados en esta Declaración, sin distinción alguna de raza, color, sexo, idioma, religión, opinión política o de cualquier otra índole, origen nacional o social, posición económica, nacimiento o cualquier otra condición” (Asamblea General de las Naciones Unidas Resolución 217,1948).

El Pacto Internacional de Derechos Civiles y Políticos reafirma, en muchas de sus disposiciones, este principio general de igualdad ante la ley e igual protección de la ley. El artículo 2 establece que cada uno de los Estados Partes debe garantizar los derechos reconocidos en el Pacto a todos los individuos, sin distinción alguna.

El artículo 26 es más amplio y se refiere a la protección contra la discriminación de manera explícita, sin limitarse a los derechos del Pacto:

“Todas las personas son iguales ante la ley y tienen derecho sin discriminación a igual protección de la ley. A este respecto, la ley prohibirá toda discriminación y garantizará a todas las personas protección igual y efectiva contra cualquier discriminación por motivos de raza, color, sexo, idioma, religión, opiniones políticas o de cualquier índole, origen nacional o social, posición económica, nacimiento o cualquier otra condición social”.

Este documento, así como varios otros tratados jurídicos internacionales, prohíbe la discriminación basada en una lista no exhaustiva de identidades de grupo sin intentar definir el significado de discriminación (Vandenhole, 2005). La igualdad y la no discriminación son ampliamente reconocidas como las declaraciones positiva y negativa del mismo principio (Bayefsky 1990).

La palabra “discriminar” tiene su origen en el latín discrimināre, que significa “distinguir entre”. En este sentido estricto, la discriminación en sí misma estaría desprovista de cualquier connotación moralizante. Por lo tanto, es importante especificar las condiciones que hacen que la discriminación sea objetable y un factor contra la inclusión social. Según la Enciclopedia de Filosofía de Stanford, la discriminación es moralmente inadecuada cuando implica i) la imposición de una desventaja o privación relativa a personas que pertenecen a un determinado grupo, y ii) es arbitraria (en partes) si la desventaja se adjudica a las víctimas por su pertenencia al grupo (Altman, 2016).

Sin embargo, establecer el marco de reconocimiento de la discriminación no nos proporciona necesariamente herramientas suficientes para el análisis de la discriminación algorítmica. Los algoritmos pueden adquirir un carácter discriminatorio por múltiples vías. Estas incluyen principalmente características del algoritmo que son sesgadas, intencionadamente o no, por los programadores o mediante el refuerzo de los sesgos presentes en los datos de entrenamiento para los algoritmos de aprendizaje de las máquinas. Los algoritmos deben someterse a un análisis de discriminación que permita identificar la discriminación directa, indirecta e institucional para poder aplicar las soluciones reglamentarias o técnicas pertinentes.

Muchos tipos de discriminación pueden ser indirectos. Por ejemplo, un algoritmo que utiliza los patrones de uso del teléfono móvil para determinar la solvencia crediticia de una persona es discriminatorio si asigna un alto riesgo crediticio a las mujeres de comunidades que i) tienen un bajo uso del teléfono móvil o ii) no poseen teléfonos móviles. La condición que se aplica puede parecer igual y justa, pero pone en desventaja a un grupo en particular (Altman, 2016).

Los algoritmos pueden causar y exacerbar estas múltiples formas de discriminación. Los prejuicios sociales y políticos existentes se están sistematizando en los algoritmos de aprendizaje automático de muchas maneras (Packin y Lev Aretz, 2018). Además, vale la pena investigar las posibles nuevas formas de discriminación que puede provocar la IA, como las exclusiones decididas sobre la base de correlaciones estadísticas que no corresponden necesariamente a características socialmente destacadas, pero que, sin embargo, están muy vinculadas a la identidad personal de cada uno.

4.2. ¿Cómo se diseña la discriminación en los algoritmos?

La predilección por la toma de decisiones objetivas, combinada con la noción de que los algoritmos procesan los datos de entrada para producir decisiones objetivas, les ha dado un aire de incuestionable superioridad sobre las decisiones tomadas por los humanos. De hecho, a los algoritmos de aprendizaje automático se les asigna un “aura de verdad, objetividad y precisión” (Boyd y Crawford, 2012). Por ejemplo, en un caso en un Tribunal de los Estados Unidos sobre el robo de una cortadora de césped, el fiscal recomendó una sentencia de un año de prisión seguida de un período de supervisión. Sin embargo, el juez, basándose en la evaluación de alto riesgo que un algoritmo hizo del individuo, anuló el acuerdo alcanzado entre la fiscalía y la defensa, e impuso una sentencia de dos años de prisión seguida de tres años de supervisión (Angwin, Larson, Mattu y Kirchner, 2016).

Hay muchos motivos para ser precavidos y no confiar tanto en los algoritmos como árbitros finales de las decisiones, ya que, en el mejor de los casos, solo proporcionan perspectivas útiles. Cualquier reclamo de justicia de los algoritmos debe calificarse por el hecho de que el proceso de toma de decisiones algorítmica tiene dos elementos clave: i) programadores humanos que toman decisiones críticas para enmarcar el problema y la validez del resultado, y ii) datos que pueden representar sesgos históricos, tergiversar grupos o no representarlos en absoluto.

En la siguiente sección se destacan los puntos de entrada humanos y controlados por datos para el posible sesgo de los algoritmos (Barocas y Selbst, 2016).

i) Sesgo controlado por el programador

a) Definición de “variables objetivo” y “etiquetas de clase”: La variable objetivo es la variable que debe predecirse, que es la salida del algoritmo. La etiqueta de clase categoriza todas las posibles variables objetivo en conjuntos mutuamente exclusivos. Los programadores, basándose en su comprensión del problema, eligen las variables y las etiquetas. En el caso de un filtro de correo no deseado, el correo electrónico puede clasificarse directamente como una de dos etiquetas: correo no deseado o no correo no deseado. Sin embargo, en el caso de un problema como un algoritmo de contratación, la clase de etiquetas es no binaria y puede reflejar los sesgos del programador o de la organización con el efecto de perjudicar a ciertos grupos sociales.

b) Selección de características: Los programadores eligen los atributos de los datos que deben observarse y utilizarse para el análisis. Si las características seleccionadas de los datos no representan adecuadamente algunos grupos de personas en una granularidad que capte sus diferencias con otros grupos, entonces pueden ser víctimas de una grave desventaja debido a la toma de decisiones automatizada.

c) Enmascaramiento: Aquellos que quieran ocultar sus sesgos e intenciones de desfavorecer a ciertos grupos detrás de la fachada de neutralidad proporcionada por los algoritmos pueden usar la toma de decisiones algorítmica como una máscara. Esto se logra mediante la definición de objetivos prejuiciosos, el etiquetado de clases, la selección de características y la manipulación de datos.

ii) Sesgo controlado por datos

a) Datos de entrenamiento sesgados: Si las reglas extraídas por el algoritmo de aprendizaje automático de cualquier conjunto de datos se consideran legítimas, los prejuicios y omisiones incorporados en los datos de ejemplo se repetirán en el modelo de predicción.

b) Representatividad de los datos de muestra: Un conjunto de datos puede estar sesgado por los datos que no contiene. Si los datos de entrenamiento reflejan una muestra no representativa de la población, entonces los grupos subrepresentados o sobrerrepresentados pueden verse perjudicados por el algoritmo. La falta de representación también puede deberse a zonas oscuras de sombras en los datos, es decir, cuando los datos de determinados grupos de población no se captan en absoluto porque se encuentran fuera del flujo de recopilación de datos. Por ejemplo, el uso de datos de teléfonos móviles como indicador indirecto de la capacidad del usuario para pagar los préstamos puede perjudicar a las personas que tienen un acceso limitado o nulo a los teléfonos móviles. Al mismo tiempo, es importante señalar que incluso los conjuntos de datos representativos reflejan sesgos históricos y sociales, por ejemplo, contra las minorías sobrerrepresentadas en las poblaciones carcelarias o las mujeres en trabajos menos prestigiosos. La propia “representatividad” de los datos puede, por lo tanto, perpetuar la discriminación y la desigualdad, cuando en realidad un conjunto de datos adaptado conscientemente que corrija esas desigualdades sociales podría producir resultados menos discriminatorios a partir de algoritmos entrenados sobre esta base y aplicados posteriormente a casos nuevos (como cuando se utilizan para informar sobre las sentencias de prisión o el análisis automatizado de las solicitudes de empleo).

c) Correlación no significa causalidad: La toma de decisiones basada en correlaciones puede llevar a inferencias erróneas. Por ejemplo: “Imagine que pasa unas horas buscando información en línea sobre freidoras. Podría estar buscando un regalo para un amigo o investigando para un informe escolar sobre cocina. Pero para un minero de datos que rastree su historial en línea esta búsqueda podría ser leída como un indicio de un hábito poco saludable. Estamos ante una predicción basada en datos que podría llegar a una aseguradora de salud o a un posible empleador” (Barocas, 2014). Además, cabe señalar que la predicción de los acontecimientos futuros se basa en el supuesto de que los acontecimientos pasados son representativos de los acontecimientos futuros, dadas las condiciones subyacentes similares e inalteradas. El problema es la suposición de que las condiciones subyacentes no han cambiado y el comportamiento continúa.

d) Asignación inadecuada cíclica de recursos: Las predicciones generadas por los algoritmos basados en los datos pueden no asignar recursos a los grupos subrepresentados. Los datos de monitoreo posteriores seguirían el mismo patrón y agravarían la discriminación contra los grupos subrepresentados. Por ejemplo, si un gobierno local rastrea la información sobre baches basándose en la cantidad de sacudidas en la carretera registradas por los teléfonos móviles de los propietarios de vehículos, el gobierno podría dirigir recursos hacia zonas más prósperas con más usuarios de teléfonos móviles y vehículos. Esto disminuye aún más la calidad de las carreteras en los barrios menos acomodados (Crawford, 2013).

e) Sesgo inducido por proxy: Incluso cuando las variables que representan directamente la pertenencia al grupo se eliminan de los datos a fin de evitar la discriminación, puede haber otras variables, necesarias para el análisis, que se correlacionen con las características de identificación del grupo y puedan dar lugar a discriminación. Por ejemplo, incluso si se eliminan del conjunto de datos los indicadores directos de raza, otras variables, como el nivel de ingresos o los patrones de consumo, pueden correlacionarse con la raza y traducirse en decisiones con un sesgo racial. Se necesitan datos sobre las consecuencias de las decisiones automatizadas para identificar la discriminación indirecta.

_____________________________________________

Recuadro 14:

Sesgos controlados por datos que implican una discriminación basada en la raza

En muchos casos, los algoritmos de aprendizaje automático se entrenan con conjuntos de datos que no son representativos. Cuando estos algoritmos se integran en productos y servicios que permiten la toma de decisiones, pueden ser discriminatorios. Por ejemplo, los investigadores que trabajan en la imparcialidad de los algoritmos han demostrado que los conjuntos de datos (IJB-A y Adience – dos puntos de referencia del análisis facial) usados para entrenar los algoritmos de reconocimiento facial están “compuestos en su mayoría por personas de piel más clara” (Buolamwini y Gebru, 2018). IJB-A y Adience tienen un 79,6 % y un 86,2 % de sujetos de piel más clara. Una consecuencia directa de estos conjuntos de datos no representativos es que las aplicaciones desarrolladas con ellos tienden a clasificar erróneamente los resultados. Por ejemplo, en algunos sistemas de clasificación de género, las mujeres de piel más oscura son las más clasificadas erróneamente, con una tasa de error de hasta el 34,7 %, en comparación con los hombres de piel más clara, en los que la tasa de error máxima es de solo un 0,8 % (Buolamwini y Gebru, 2018). Estas diferencias en las tasas de error prevalecen independientemente de la empresa o el país que haya desarrollado el sistema: las empresas estadounidenses Microsoft e IBM tuvieron tasas de error del 21 % y el 35 %, respectivamente, para las mujeres negras, mientras que la china Megvii tuvo una tasa de error del 35 %. (Buolamwini y Gebru, 2018).

Otro ejemplo se dio en 2015 cuando la aplicación Photos de Google etiquetó a dos individuos de piel oscura como “gorilas”. La empresa corrigió el error y se disculpó, pero un informe reciente muestra que la tecnología de etiquetado de imágenes está lejos de ser perfecta, y la solución rápida de eliminar “gorilas” de las etiquetas puede no estar abordando el centro del problema del sesgo (Simonite, 2018).

____________________________________

Por lo tanto, vemos que la toma de decisiones por medio de algoritmos es susceptible a sesgos controlados por humanos y por datos. Gran parte de la toma de decisiones algorítmica se basa en prejuicios implícitos de los programadores o internalizados en los datos.

Las consideraciones históricas y sociológicas proporcionan la información de fondo crucial necesaria para determinar la imparcialidad en los contextos y resultados de la toma de decisiones algorítmica (Michael, Van Kleek y Binns, 2018). Se necesita un análisis algorítmico profundo para defender el derecho a la igualdad y garantizar que las desigualdades históricas relacionadas con el género, la raza/etnia, la orientación e identidad sexual, el nivel socioeconómico, la discapacidad y otros factores de estigmatización no se perpetúen ni se consideren “objetivas”. [ … ]

________________________________________________________________