Queja judicial
Reddit acusa a Anthropic de haber realizado más de 100 000 accesos automatizados para recolectar publicaciones y comentarios, incluidos materiales eliminados, pese a prometer que bloquearía a sus bots; la demanda solicita compensación económica, daños punitivos y una orden que prohíba a la startup volver a usar datos de la red social con fines comerciales, y quedó radicada ante el juez Samuel K. Feng bajo el expediente CGC-25-524892.
Uso indebido de contenido
El escrito judicial indica que Anthropic utilizó el corpus de Reddit para entrenar sus modelos Claude Opus 4 y Sonnet 4, obteniendo una ventaja competitiva sin pagar licencias; Reddit afirma que, al negarse a firmar un acuerdo como sí lo hicieron Google y OpenAI, la empresa violó la política de uso de la comunidad y se benefició con “decenas de miles de millones” de dólares, y subraya que incluso contenido eliminado llegó a reproducirse en respuestas del chatbot.
Respuesta de Anthropic
Un portavoz de Anthropic declaró que la compañía “discrepa rotundamente” de las acusaciones y se defenderá con vigor; respaldada por Amazon y Alphabet, la startup sostiene que sus métodos respetan la ley y que mantiene altos estándares éticos, subrayando que la información disponible públicamente puede emplearse de forma legítima para innovación, aunque no especificó qué porcentaje de su entrenamiento proviene directamente de Reddit.
Implicaciones para la IA
El litigio intensifica el debate sobre los límites del web scraping y el uso justo de datos públicos en el entrenamiento de modelos de inteligencia artificial; una sentencia favorable a Reddit podría obligar a las empresas de IA a pagar licencias y ralentizar avances, mientras que un fallo a favor de Anthropic reforzaría la práctica de entrenar con contenidos abiertos sin compensación, y expertos prevén que esto impulse nuevas leyes de copyright digital en Estados Unidos y Latinoamérica.
Escenario futuro
El proceso podría prolongarse años, pero ya presiona a otros desarrolladores para negociar acuerdos con titulares de datos; conforme los reguladores de Estados Unidos y la Unión Europea analizan normas específicas, el resultado podría marcar un referente mundial sobre si los futuros chatbots se basarán en datos licenciados o repositorios abiertos, mientras Reddit explora alianzas comerciales con empresas dispuestas a compartir ingresos por acceso formal a su contenido.
Perspectiva mexicana
La controversia resuena entre empresas y desarrolladores nacionales que evalúan cómo afectará la disponibilidad de datos abiertos y los costos de licenciamiento a la competitividad de soluciones locales basadas en ChatGPT Mexico, especialmente en sectores donde el contenido generado por usuarios es la materia prima para sistemas conversacionales avanzados.