ChatGPT en Español - ChatGPT México

Modelo AI de DeepSeek Confunde su Identidad

El modelo DeepSeek V3, desarrollado por un laboratorio de inteligencia artificial chino, sorprende al identificarse como ChatGPT, lo que desata polémica sobre las prácticas de entrenamiento en la industria y las posibles implicaciones legales y éticas.
Modelo AI de DeepSeek confunde su identidad

DeepSeek V3 y su confusión de identidad

DeepSeek V3, el nuevo modelo de inteligencia artificial lanzado por el laboratorio chino DeepSeek, ha superado varios estándares de evaluación, destacándose en tareas como la codificación y la redacción de textos. Sin embargo, ha generado controversia al afirmar ser ChatGPT, el modelo insignia de OpenAI basado en GPT-4. Incluso proporciona información incorrecta sobre el uso de las API de OpenAI, reproduciendo respuestas y hasta chistes característicos de GPT-4.

Entrenamiento basado en datos de ChatGPT

Aunque DeepSeek no ha divulgado detalles sobre el origen de los datos utilizados para entrenar DeepSeek V3, expertos sugieren que podría haberse basado en textos generados por ChatGPT. Esto podría explicar por qué el modelo replica patrones y respuestas de GPT-4, una práctica que plantea preocupaciones sobre la calidad y la originalidad de los modelos entrenados de esta manera.

Riesgos de entrenar con datos de otros modelos

Especialistas en inteligencia artificial advierten que entrenar modelos con datos generados por otros sistemas puede causar problemas como respuestas erróneas y pérdida de precisión. Según el investigador Mike Cook, este enfoque puede ser comparable a realizar una fotocopia de una fotocopia, degradando progresivamente la calidad de la información. Además, esta práctica podría violar los términos de servicio de OpenAI, que prohíben utilizar sus resultados para entrenar sistemas competidores.

La postura de OpenAI y la competencia

Sam Altman, CEO de OpenAI, publicó un mensaje en X aparentemente dirigido a DeepSeek, señalando que copiar ideas existentes es más sencillo que innovar con algo nuevo y desafiante. Aunque DeepSeek no ha respondido a las acusaciones, su modelo no es el único que enfrenta problemas de identidad. Otros sistemas, como Google Gemini, también han mostrado confusiones similares, reflejando un problema más amplio en la industria.

Contaminación de datos en internet

La proliferación de contenido generado por IA en la web complica la creación de modelos confiables. Con estimaciones que sugieren que el 90% del contenido en línea podría ser generado por IA para 2026, los desarrolladores enfrentan dificultades para filtrar estos datos en sus conjuntos de entrenamiento. Esto podría estar contribuyendo a los problemas de identidad observados en modelos como DeepSeek V3.

Implicaciones éticas y legales

El uso de datos generados por otros modelos, como los de ChatGPT en español, para entrenar nuevos sistemas plantea cuestiones éticas y legales. Además de las preocupaciones sobre la calidad y confiabilidad de los modelos, estas prácticas podrían estar infringiendo derechos de propiedad intelectual. Aunque DeepSeek podría haber optado por este enfoque para reducir costos, los riesgos asociados podrían superar los beneficios.