Inteligencia artificial: ¿quiénes entrenan los algoritmos?
03 de mayo de 2025
El colonialismo de datos y la división internacional de trabajo, retoman un principio fundamental del capitalismo. Todos los esfuerzos por maximizar el control de los insumos de su proceso de producción en el contexto de expansión sistémico; posibilitado por las telecomunicaciones y la redefinición digital de la vida cotidiana.
El colonialismo de datos y la división internacional del trabajo son dos procesos interrelacionados que explican cómo la tecnología y los datos pueden ser utilizados para perpetuar desigualdades económicas y sociales a nivel global. El colonialismo de datos se refiere a la apropiación y explotación de los datos personales, sociales, culturales y políticos mientras que la división internacional del trabajo describe la distribución de la producción global. Estos dos procesos se refuerzan mutuamente, creando una dinámica de dependencia y explotación que afecta a los países del sur global. Se combinan las prácticas extractivas depredadoras del colonialismo histórico con los métodos abstractos de cuantificación provenientes de la aplicación de modelos algorítmicos de Inteligencia Artificial (IA).
Comprender los datos masivos desde el Sur Global significa entender la actual dependencia del capitalismo en este nuevo tipo de apropiación que funciona en cada punto del espacio donde las personas o las cosas están vinculadas a las infraestructuras de conexión a las redes de datos.
La escala y la celeridad de esta transformación tecnológica asociada al desarrollo de la IA dificultan visualizar las formas del capitalismo que surgirán a escala global. Así como el colonialismo histórico a largo plazo proporcionó las condiciones esenciales para el surgimiento del capitalismo industrial, con el tiempo, podemos esperar que el colonialismo de datos y la IA proporcionen las condiciones para una nueva etapa del capitalismo que aún no podemos imaginar, pero para la que la apropiación de la vida humana a través de los datos es una condición fundamental.
Nuevos empleos laborales de la IA
La realidad laboral de los especialistas y auxiliares en Inteligencia Artificial es un vector en crecimiento permanentemente. ¿Pero cómo es este crecimiento?
Desde 2019 las ofertas de trabajo para científicos de computación o ingenieros en inteligencia artificial se han multiplicado por seis en los países con políticas que sostiene y motorizan el desarrollo y la formación en disciplinas de Matemáticas, Ingeniería en Software, Inteligencia Artificial y Tecnología de alto rendimiento computacional. Este sector impacta en la industria para el desarrollo de productos y servicios globales basados en IA que luego son exportados a los países consumidores de estas ventajas tecnológicas.
Este contexto, nos presenta una nueva división internacional del trabajo. Por un lado, los que producen con altas capacidades de conocimientos tecnológicos y formaciones profesional y por el otro la mano de obra menos calificada pero determinantes al momento de entrenar los algoritmos que dan vida a los productos o servicios de IA que se exportan.
Por su puesto que estos trabajos menos calificados, crearán millones de puestos de trabajo, a escala global, utilizando internet como territorio laboral configurando una “uberización laboral”. Estos trabajos son imprescindibles para entrenar los modelos de IA que están representados mediante algoritmos, implementados en un lenguaje de programación que posibilita su explotación mediante sistemas computacionales de alto rendimiento. ¿Cómo se benefician los países del sur global?
Los datos se han convertido en la materia prima esencial del proceso de “datificación” actual. Conforman el flujo constante y permanente en las infraestructuras de telecomunicaciones. Es decir, todos los datos que fluyen en redes como Internet o Intranet o Extranet son el elemento esencial para el entramiento de la IA.
Sucede que estos datos poseen formatos conocidos como estructurados y no estructurados. Para el proceso de entrenamiento de la IA es necesario un tratamiento previo de estos tipos de datos. Para el caso de los estructurados, el entrenamiento algorítmico es directo, se comienza evaluando la distribución probabilística de los mismos, se deriva en la estimación paramétrica y luego se aplican los métodos de IA que se pueden aplicar.
Para el caso de tipo de datos no estructurados; audio, video, imagen y texto en general lo que fluye en redes sociales, se debe realizar un trabajo que permita a estos datos no estructurados darle una estructura que los canalicen al proceso anterior (datos estructurados). A este trabajo se lo conoce con el nombre de Etiquetados de datos para modelos de Aprendizaje Automático (Machine Learning).
El etiquetado es el factor laboral que demanda millones de trabajadores realizando sus tareas en plataformas de software y modalidades remotas. Son las tareas menos calificadas de la cadena de procesos de la IA; consisten en etiquetar los datos que van a entrenar el algoritmo. Este etiquetado es un resumen de los datos de entrenamiento que además puede estar guiado incluso por una IA generativa. Son como las solapas de los libros que no forman parte del contenido de la obra, pero la explican en pocas palabras.
El etiquetado se realiza “a mano” y otras veces de forma semiautomática. Pero la retroalimentación humana es siempre fundamental. Los etiquetados proporcionan a los modelos la información contextual que necesitan para establecer asociaciones estadísticas entre los componentes de una base de datos y su significado para los seres humanos. Los que hayan realizado pruebas de “captcha”, seleccionando fotos que contengan cruces de peatones, es posible que hayan ayudado gratuitamente a entrenar un modelo de IA para un coche autónomo. Los trabajos de etiquetado de datos no demandan ingenieros en IA ni especialistas en algoritmos.
Qué capacidades demanda el etiquetado de datos
El etiquetado de datos implica categorizar y etiquetar datos en los formatos citados anteriormente, esta tarea permite que los datos sean interpretables por algoritmos de aprendizaje automático. Este proceso es esencial para entrenar modelos de IA con precisión. Un trabajo en etiquetado de datos ofrece una puerta de entrada accesible a la industria tecnológica, con una mínima experiencia técnica previa.
Estos puestos laborales, familiarizan a las personas en el manejo de datos y las exponen a los procesos iterativos (pasadas sucesivas) del entrenamiento de modelos de aprendizaje automático. Este trabajo es guiado por sistemas de etiquetado que disponen las corporaciones en plataformas de software a las cuales se conectar los etiquetadores para iterar el proceso de entrenamiento algorítmico.
Las organizaciones que desarrollan la IA reconocen cada vez más el valor de invertir en su fuerza laboral. Ofrecen programas de capacitación formal que abarcan conocimientos básicos de aprendizaje automático, ética de datos y pensamiento computacional, transformando un trabajo rutinario de etiquetado en una oportunidad de aprendizaje. Los programas de capacitación están diseñados para ayudar a los etiquetadores a mejorar sus habilidades técnicas, abarcando áreas como programación básica, preprocesamiento de datos e incluso análisis de datos introductorio. Estos programas suelen desarrollarse en colaboración con instituciones educativas y otorgan certificaciones. Este modelo corporativo asegura la dotación propia para montar la cadena de suministros en el ciclo de producción de la IA.
Con la capacitación adecuada, los etiquetadores de datos pueden ascender a roles como: Analistas de control de calidad: supervisan la precisión del etiquetado de datos y garantizan que los datos introducidos en los sistemas de IA sean de alta calidad; Analistas de datos: pasan de etiquetar datos a interpretarlos, proporcionando información que influye en las estrategias comerciales; Instructores de IA: se especializan en ajustar los modelos de IA después del entrenamiento inicial, un rol fundamental a medida que los modelos evolucionan para manejar conjuntos de datos más complejos.
Desequilibrio social conocido
La mayor parte de la fuerza de trabajo es subcontratada a los países como India, donde se estima que para 2030 el etiquetado creará un millón de empleos y que los ingresos generados alcanzarán los 7.000 millones de dólares anuales. Las cifras son importantes porque todo el sector industrial de la informática de India, que responde a un modelo exportador de “mano de obra calificada con trabajo remoto” emplea a 5,5 millones de trabajadores y capitaliza 254.000 millones de dólares anuales.
En abarrotado barrio de Metiabruz que se encuentra en la periferia de la ciudad de Calcuta, se puede encontrar a 460 mujeres jóvenes trabajando en la industria de vanguardia de la IA. Las mujeres, en su mayoría de la comunidad musulmana local, están ayudando a entrenar los algoritmos de visión computarizada utilizados en los vehículos autónomos y sistemas de realidad aumentada, para compañías como Amazon, Microsoft, eBay y TripAdvisor. El centro, exclusivamente para mujeres, es una de las ocho oficinas en India operadas por iMerit, una compañía de etiquetado de datos con sede en India y EEUU, cuyos 2,200 empleados locales etiquetan los innumerables datos generados por industrias tan diversas como la manufactura, la imagenología médica, la conducción autónoma, el comercio minorista, el sector de seguros y la agricultura.
La operación es parte de una creciente industria de etiquetado de datos que emplea a cientos de miles de trabajadores en países de bajos ingresos, incluyendo Kenia, India y Filipinas. Compañías como Figure Eight y Mighty AI, y las empresas de tecnología informática (TI) más tradicionales como Accenture y Wipro, forman parte de la llamada “cadena de suministro de IA” que crea algoritmos capaces de interpretar material que incluye imágenes de conducción, resultados de búsqueda y fotografías para las principales multinacionales estadounidenses y europeas, incluyendo a Facebook, Volkswagen y Google.
En Estados Unidos un etiquetador de datos gana un salario de 10 a 20 dólares por hora, mientras que en un país del Tercer Mundo el salario oscila entre 4 y 8 dólares por hora. No hay inteligencia artificial sin entrenadores y, a medida que la tecnología cambia rápidamente, los entrenadores también tienen que cambiar. Aunque la mano de obra se subcontrata en los países del Tercer Mundo, se trata de trabajo de nuevos obreros especializados que trabajan en línea conectados remotamente y en “horarios libres”. Es posible utilizar algoritmos para aplicar etiquetas a los datos. Se llaman “datos sintéticos” que, a su vez, deben ser verificados por otro tipo de etiquetadores. Por ejemplo, a un trabajador le presentan las dos respuestas de un chatbot que recomienda un itinerario para un viaje de vacaciones al Machu Pichu. Debe seleccionar la respuesta que prefiera, marcarla, explicar por qué la respuesta es correcta o incorrecta y luego reescribirla para mejorarla.
El desarrollo de la Inteligencia Artificial promete revolucionar económica, social y políticamente las sociedades de todo el mundo. Según cálculos de la consultora PwC, la IA podría generar 15,7 billones de dólares para la economía global en 2030. No obstante, y excluyendo a China, solo 1,7 de estos billones se originarían en el Sur Global[i].
El reto es que la transición a la nueva economía de la IA sea beneficiosa e inclusiva, y que no se limite a amplificar las desigualdades ya existentes. Desigualdades que, en este caso, existen no solo entre el Norte y el Sur Global, sino también entre los mismos países del sur.
Existe una correlación clara entre la capacidad computacional de los modelos y los costos de entrenamiento, por lo que es de prever que sea cada vez más difícil que cada país en forma aislada o sometido a un de concentración global desarrolle innovación en IA. Este modelo solo puede producir patrones de dependencia y de colonización de los datos.
Ante el riesgo de quedar a merced de políticas imperialistas, muchos países han publicado sus estrategias nacionales de IA en 2023, con vistas a marcarse objetivos y prioridades, y también, incentivar marcos legislativos que puedan prevenir los efectos negativos de la IA. Así en 2017 Canadá, China, Finlandia. 2018 Francia, Alemania, India, Mauricio, México, Suecia. 2019 Argentina, Bangladesh, Chile, Colombia, Chipre, Rep. Checa, Dinamarca, Egipto, Estonia, Japón, Lituania, Luxemburgo, Malta, P. Bajos, Portugal, Qatar, Rumanía, Rusia, Sierra Leona, Singapur, Eslovaquia, Emiratos Árabes Unidos, EEUU, Uruguay. 2020 Argelia, Bulgaria, Croacia, Grecia, Hungría, Indonesia, Letonia, Corea del Sur, Noruega, Polonia, Arabia Saudí, Serbia, España, Suiza. 2021 Australia, Austria, Brasil, Hong Kong, Irlanda, Malasia, Perú, Filipinas, Eslovenia, Túnez, Turquía, Ucrania, Reino Unido, Vietnam. 2022 Bélgica, Ghana, Irán, Italia, Jordania, Tailandia. 2023 Azerbaiyán, Bahrein, Benín, República Dominicana, Etiopía, Irak, Israel, Rwanda.
Un riesgo cierto asociado a la IA es la profundización de la exclusión digital y el aumento de la desigualdad. La brecha entre los que tienen acceso a las tecnologías avanzadas y los que no aumente en los próximos años, lo que conducirá a una menor productividad, un menor crecimiento económico y una mayor desigualdad social y económica.
Esto es especialmente preocupante en los países de renta baja y media que ya se enfrentan a déficits de talento digital y servicios relacionados. Una de las principales razones es la relativa dificultad de acceso a la infraestructura digital y la escasa alfabetización digital de amplias zonas del sur global.
Otra amenaza importante es la intensificación de los prejuicios y la discriminación. Los sistemas de IA desarrollados en Estados Unidos, China y la Unión Europea pueden perpetuar y amplificar los prejuicios ya presentes en los datos utilizados para entrenar la IA. Puede dar lugar a resultados discriminatorios en ámbitos como la puntuación crediticia, la contratación de personal, las primas de seguros, la vigilancia policial y la justicia penal.
Los algoritmos siguen siendo en gran medida entrenados con conjuntos de datos proporcionados por colonizadores de datos. Como consecuencia, los trabajadores, estudiantes y empresarios de los países colonizados pueden verse excluidos de las oportunidades en el mercado laboral, los préstamos, las becas o los servicios sanitarios debido a sesgados en los datos y /o los algoritmos. Este contexto, refuerza la discriminación estructural, incluidos los prejuicios raciales, de género y de clase social.
La excesiva dependencia de los actores del sur global de las tecnologías y los conocimientos extranjeros. La fuerte dependencia de las tecnologías e innovaciones de IA de EE. UU., China y Europa reducen los incentivos para el desarrollo tecnológicos nacionales y regionales. Estas dependencias degradan el poder de negociación, dar lugar a costos más elevados para la tecnología y disminuir el control sobre las normas.
La erosión de la soberanía de los datos es una realidad, y la dependencia de proveedores extranjeros significa que los datos pueden ser más fácilmente accesibles, controlados, manipulados y explotados por actores externos. Esto, a su vez, puede aumentar vulnerabilidades como las violaciones de la privacidad y el robo de propiedad intelectual, además de reducir el control sobre infraestructuras tecnológicas críticas.
Es posible tomar medidas en nuestra comunidad regional que posibiliten alternativas a una dependencia crítica y de sometimiento digital.
Formación y capacitación: Frente a la automatización y la reducción de puestos de trabajo, se reconoce la necesidad urgente de invertir en educación y formación profesional. Los trabajadores actuales y futuros deben poseer las competencias adecuadas para el mercado laboral en evolución, ya sea el conocimiento del mundo digital y la ciencia de datos, o el desarrollo de habilidades interpersonales. Expansión de infraestructuras y conexión: En cuanto a las desigualdades digitales, los agentes públicos y privados tendrán que realizar una inversión significativa en infraestructura digital. Esto incluye ampliar el acceso a internet y a la banda ancha a los 2 600 millones de personas del sur global que aún no están conectadas, así como apoyar la creación y gestión de centros tecnológicos, especialmente en zonas desatendidas y promover y proteger iniciativas como ARSAT en Argentina. Transparencia algorítmica y protección de la privacidad: Los prejuicios y la discriminación pueden reducirse estableciendo y aplicando directrices y normas éticas para el desarrollo y la aplicación de la IA. Abordar de forma integral las violaciones de la privacidad y la vigilancia requiere la creación y aplicación de leyes sólidas de protección de datos y privacidad para proteger la información personal. Apoyo Público y Privado a la investigación e innovación: Para reducir la dependencia excesiva de los proveedores de tecnología extranjeros es necesaria una gran inversión no sólo en investigación y desarrollo locales de IA, sino también en la formulación de políticas de IA. Una de las prioridades es ampliar las subvenciones y los incentivos para las aceleradoras, los startups y las instituciones de investigación locales.
Aunque es necesario abordar cuestiones estructurales como la legislación antimonopolio, urge aumentar la inversión y la innovación en IA en el sur global e impulsar la gobernanza de la IA en el sur global. Para hacer frente a estos riesgos y ampliar la aplicación de soluciones, es esencial reducir la diferencia en la gobernanza de la IA entre el norte y el sur global. Esta diferencia se manifiesta no sólo en las capacidades tecnológicas y la infraestructura digital y energética subyacente, sino también en el acceso a los recursos, el talento e incluso la formulación de políticas.
Sería irresponsable desatender la memoria tecnológica argentina y concluir en forma fatalista que el camino hacia la dependencia que produce el colonialismo de datos y el desarrollo de la IA ya está determinado para Argentina y América Latina. Esta opción resulta intolerable, no hay nada digno en permanecer en silencio ante la memoria histórica de nuestro continente. Podemos afirmar que la integridad mínima del ser no puede ser simplemente delegada a sistemas automatizados ya que el nuevo orden social en construcción a través de los datos y la concentración del desarrollo de la IA produce patrones de poder y desigualdad que corroen todas las prácticas significativas de la libertad que contradicen el sentido básico de la humanidad.