Vender datos personales para entrenar IA: 5 riesgos reales

La fiebre del oro de los datos

Vender datos personales para entrenar IA es una tendencia global que crece en silencio. Una mañana del año pasado, Jacobus Louw salió a dar su caminata diaria por el barrio para alimentar a las gaviotas que encuentra en el camino. Excepto que esta vez grabó cada momento. El video no fue para sus redes sociales ni para un álbum familiar: fue vendido a una empresa de inteligencia artificial para entrenar sus modelos. Louw es parte de una tendencia global que crece silenciosamente y que está redefiniendo qué significa trabajar, y qué significa ser dueño de tu propia identidad.

La industria de la IA tiene hambre. Y lo que más necesita, según investigadores y expertos en el sector, ya no es solo texto de internet ni bases de datos históricas: son datos del mundo real, generados por personas comunes, capturando sus voces, sus movimientos, sus conversaciones cotidianas. Para satisfacer esa demanda, ha florecido un ecosistema de aplicaciones que pagan a cualquier usuario por vender fragmentos de su vida cotidiana.

Apps que compran tu identidad

El mercado de datos para IA ha generado una nueva categoría de plataformas: los marketplaces de datos, aplicaciones diseñadas para conectar a millones de personas con empresas tecnológicas que necesitan datos humanos auténticos.

Entre las más activas están Kled AI y Silencio, que permiten a los usuarios monetizar desde grabaciones de audio hasta escenas capturadas con la cámara del teléfono. Luel AI, respaldado por la reconocida aceleradora Y Combinator, paga alrededor de 0,15 dólares por minuto de conversación multilingüe. ElevenLabs, conocida por su tecnología de síntesis de voz, permite clonar digitalmente la voz de un usuario y cobrar 0,02 dólares por minuto cada vez que alguien la use.

Bouke Klein Teeselink, profesor de economía en el King’s College de Londres, describió el gig AI training —o entrenamiento gig de IA— como una nueva categoría emergente de trabajo que crecerá de manera significativa en los próximos años.

Las razones por las que las empresas de IA prefieren pagar por datos licenciados, en lugar de extraerlos de internet, son al menos dos: evitar disputas de derechos de autor por el uso de contenido sin permiso, y acceder a datos de alta calidad que les permitan modelar comportamientos nuevos y mejorados en sus sistemas. Veniamin Veselovsky, investigador de IA, lo resumió con precisión: los datos humanos son, por ahora, el estándar de oro para obtener información que esté fuera de la distribución del modelo.

El costo humano: el caso Neon Mobile

No todo en este mercado es promesa de dinero fácil. El caso de la app Neon Mobile ilustra los riesgos que enfrentan quienes venden sus datos sin leer —o sin entender— la letra pequeña.

Un entrenador de IA basado en Chicago, identificado como Hill, vendió aproximadamente 11 horas de sus llamadas telefónicas privadas a Neon Mobile por 200 dólares. La experiencia fue problemática desde el inicio: la app se desconectaba con frecuencia y retenía los pagos. Sin embargo, lo que vino después fue más grave.

Semanas después de su lanzamiento, Neon Mobile cerró abruptamente luego de que el medio especializado TechCrunch descubriera una falla de seguridad que permitía a cualquier persona acceder a los números de teléfono, grabaciones de llamadas y transcripciones de todos los usuarios. Hill reconoció que la empresa nunca lo notificó del incidente, y que ahora le preocupa cómo podría usarse su voz en internet.

Licencias «carta blanca»: lo que firmas sin saberlo

Más allá de los fallos de seguridad, existe un problema estructural en este mercado: los términos legales que los usuarios aceptan al registrarse en estas plataformas.

Cuando los entrenadores gig comparten sus datos en plataformas como Neon Mobile y Kled AI, están otorgando una licencia de carácter mundial, exclusiva, irrevocable, transferible y libre de regalías para vender, usar, exhibir públicamente y almacenar su identidad —e incluso para crear obras derivadas de ella.

Jennifer King, investigadora de privacidad de datos en el Instituto Stanford para la Inteligencia Artificial Centrada en el Ser Humano, advirtió que los marketplaces de IA son opacos sobre cómo y dónde se desplegarán los datos de los usuarios. Sin negociar ni conocer sus derechos, los consumidores corren el riesgo de que sus datos sean reutilizados de formas que no anticiparon, sin posibilidad real de recurso legal.

Por qué la IA necesita datos humanos reales

Para entender por qué Silicon Valley paga dinero real por videos de gaviotas y grabaciones de llamadas telefónicas, hay que comprender una limitación técnica que los modelos de lenguaje más avanzados han comenzado a enfrentar: el agotamiento de los datos disponibles en internet.

Los grandes modelos de lenguaje como GPT-4, Gemini o Claude fueron entrenados inicialmente con enormes volúmenes de texto extraído de la web. Pero ese recurso tiene un techo. A medida que los modelos se vuelven más sofisticados, necesitan datos que estén fuera de su distribución original: conversaciones auténticas, comportamientos cotidianos, voces reales en distintos idiomas y acentos, contextos culturales específicos que el texto escrito no captura bien.

Hay además un riesgo técnico asociado a entrenar modelos con los datos que ellos mismos generan. Ese proceso recursivo puede llevar a los modelos a producir resultados deficientes que eventualmente causan su colapso —un fenómeno que los investigadores conocen como «colapso del modelo». La solución es, precisamente, inyectar datos humanos frescos y auténticos de forma constante.

El perfil del entrenador gig: países en desarrollo en la primera línea

Quienes alimentan a las máquinas son, con frecuencia, personas en países en desarrollo que necesitan el dinero y tienen pocas alternativas para obtenerlo. Para muchos entrenadores gig de IA, este trabajo es una respuesta pragmática a realidades económicas concretas: desempleo, subempleo, o la necesidad de complementar ingresos insuficientes. Si estás buscando fuentes de ingreso alternativas, puedes revisar también cómo cobrar en dólares trabajando de forma remota desde Ecuador.

Esta dimensión del mercado tiene implicaciones directas para América Latina. La demanda de datos en español, en sus distintas variantes regionales, en acentos locales y contextos culturales propios, es una oportunidad que hasta ahora ha sido aprovechada de forma marginal por la región. Empresas como Luel AI buscan explícitamente conversaciones multilingües, y el español es el segundo idioma más hablado del mundo. Para quienes buscan nuevas formas de generar ingresos, vale también considerar cómo encontrar trabajo sin experiencia en plataformas digitales.

Un mercado sin reglas claras

El crecimiento acelerado de los marketplaces de datos para IA ha superado la capacidad de los marcos regulatorios existentes para gobernarlo. Las leyes de privacidad vigentes —el GDPR europeo, la CCPA californiana— no fueron diseñadas para abordar los riesgos específicos que plantea este modelo: la retención permanente de datos en los pesos de un modelo, la imposibilidad práctica de ejercer el derecho al olvido, o la cadena de transferencias que puede experimentar un dato desde que un usuario lo vende hasta que termina siendo utilizado por un tercero desconocido.

La investigadora Jennifer King, de Stanford, subrayó que los consumidores que venden sus datos en estas plataformas tienen poco margen legal de actuación si sus datos terminan siendo usados de maneras que no anticiparon ni consintieron explícitamente.

La pregunta que la industria evita responder

Detrás de la narrativa optimista de «monetiza tu voz» y «gana dinero con tus datos cotidianos» hay una pregunta que la industria evita responder con claridad: ¿cuánto vale realmente la identidad de una persona, y quién se beneficia más de esa transacción?

El caso de Hill y Neon Mobile sugiere que la respuesta, por ahora, favorece ampliamente a las empresas tecnológicas. Por 11 horas de grabaciones de llamadas privadas —datos de alto valor para entrenar modelos de voz— Hill recibió 200 dólares. ElevenLabs, por comparación, puede generar ingresos recurrentes de esa misma voz clonada de manera indefinida.

La economía de los datos humanos está en sus primeras etapas, pero sus reglas se están escribiendo ahora. Y quienes las escriben, en su mayoría, no son los usuarios que venden sus voces, sus caminatas ni sus llamadas telefónicas.

Esto no es nuevo: cuando entrenabas IA sin saberlo

El mercado de datos gig que describen Kled AI, Silencio y Neon Mobile puede parecer una novedad, pero la lógica de extraer trabajo cognitivo humano para entrenar sistemas de IA tiene precedentes que la mayoría de las personas ya vivió —sin saberlo— durante más de una década.

reCAPTCHA: 500.000 horas de trabajo gratis al día

Cada vez que un usuario de internet hizo clic en «selecciona todos los semáforos» o «identifica los pasos de peatones» para demostrar que no era un robot, estaba haciendo algo más que pasar un filtro de seguridad. Estaba etiquetando datos para entrenar los modelos de visión artificial de Google.

reCAPTCHA fue creado originalmente por el informático Luis von Ahn en la Universidad Carnegie Mellon y adquirido por Google en 2009. En su primera versión, los usuarios transcribían palabras distorsionadas que servían para digitalizar libros y archivos de texto. Para 2011, reCAPTCHA había digitalizado toda la base de datos de Google Books y 13 millones de artículos del New York Times desde 1851.

Con reCAPTCHA v2 llegaron las cuadrículas de imágenes. Esas imágenes provenían directamente de Google Street View. Cada clic del usuario funcionaba como una etiqueta: cada selección le indicaba al modelo de visión artificial de Google qué grupo de píxeles corresponde a un semáforo o qué forma es un paso de peatones. No era un test —era la construcción de un dataset.

La escala del sistema fue monumental. En su punto máximo, 200 millones de personas resolvían reCAPTCHAs diariamente. Con 10 segundos por desafío, eso equivalía a 500.000 horas de trabajo humano al día. Dado que empresas de anotación de datos cobran entre 10 y 50 dólares por hora, incluso en el rango mínimo Google extraía trabajo valorado en 5 millones de dólares al día, de forma completamente gratuita.

Entre los beneficiarios directos se encuentran Google Maps y, posiblemente, Waymo, la empresa de vehículos autónomos de Google valorada en 45.000 millones de dólares. Google nunca confirmó oficialmente el uso de datos de reCAPTCHA para Waymo; lo único que reconoció la compañía es que «usa muchos métodos distintos» para etiquetar imágenes y entrenar sus modelos de IA, sin precisar cuáles.

La ironía del sistema es difícil de ignorar: los usuarios pasaron años demostrando que eran humanos haciendo el trabajo visual que la IA no podía hacer. Una vez que la IA aprendió de ellos, ese trabajo dejó de ser necesario. En 2018 llegó reCAPTCHA v3, que ya no muestra desafíos visuales: analiza cómo el usuario mueve el mouse, la velocidad de desplazamiento y el tiempo de permanencia en la página. La huella conductual del usuario le indica si es humano —y esos datos también se retroalimentan en los sistemas de IA de Google.

Pokémon GO: 30.000 millones de imágenes capturadas mientras cazabas Pikachu

Si reCAPTCHA fue el peaje invisible del internet, Pokémon GO fue su equivalente en el mundo físico. Cuando el juego de Niantic se lanzó en 2016 y se convirtió en un fenómeno global, millones de personas salieron a las calles apuntando la cámara de su teléfono a edificios, parques, monumentos y esquinas. Lo que ningún jugador imaginó es que esas imágenes tendrían una segunda vida una década después.

Niantic Spatial, la división de IA escindida de Niantic en 2025, está utilizando la información recopilada por los jugadores de Pokémon GO para construir un «modelo del mundo»: un mapa visual tridimensional diseñado para que las máquinas entiendan y naveguen el espacio físico.

La base de datos resultante tiene una dimensión difícil de imaginar: 30.000 millones de imágenes que cubren más de un millón de ubicaciones en todo el mundo, cada una con metadatos precisos —ángulo de la cámara, hora del día, condiciones meteorológicas, orientación y velocidad del dispositivo. Niantic lo denomina un Large Geospatial Model (LGM): el equivalente espacial de lo que GPT es para el lenguaje.

La aplicación más inmediata ya está en marcha. Niantic Spatial firmó un acuerdo con Coco Robotics para que sus robots de reparto urbano —que ya operan en Miami, Chicago y Los Ángeles— naveguen con precisión inédita gracias a ese sistema. A diferencia del GPS convencional, que puede fallar varios metros en entornos urbanos densos, el sistema ubica al robot con un margen de error de centímetros.

Lo que empresas como Google o Tesla han construido con costosas flotas de vehículos y sensores, Niantic lo obtuvo de forma distribuida, orgánica y prácticamente gratuita.

El caso tiene además una capa de complejidad adicional: Niantic fue adquirida por Scopely, empresa vinculada al Fondo de Inversión Pública de Arabia Saudí. El Vicepresidente Senior de Ingeniería de Niantic y cocreador de Google Maps llegó a reconocer la posibilidad de que la información pueda ser vendida a gobiernos y ejércitos. Niantic, por su parte, ha aclarado que la función de escaneo de lugares es completamente voluntaria y que los datos de movimiento de los jugadores durante el juego no alimentan el modelo geoespacial.

El patrón que se repite

reCAPTCHA y Pokémon GO comparten una estructura que ahora replican, de forma más explícita y remunerada, las apps como Kled AI, Silencio o Neon Mobile: convertir la actividad cotidiana de millones de personas en datos de entrenamiento para sistemas de inteligencia artificial. La diferencia es que los modelos anteriores no pagaban nada, no informaban sobre el uso real de los datos, y operaban a una escala que los hacía invisibles.

Las nuevas plataformas al menos pagan —aunque sea poco— y piden consentimiento formal. Pero como advirtió Jennifer King, de Stanford, ese consentimiento suele estar enterrado en términos legales que casi nadie lee, y otorga derechos que casi nadie comprende. La pregunta de fondo sigue siendo la misma que en 2016, cuando millones de personas salían a cazar Pokémon por sus barrios: ¿sabes realmente para qué estás trabajando?

Miles de personas venden momentos de su vida para entrenar a la IA: ¿cuánto vale tu identidad?