ChatGPT en Español - ChatGPT México

OpenAI presenta Codex, agente de código

OpenAI anunció la llegada de Codex, su nuevo sistema de programación agentic capaz de automatizar tareas complejas a partir de instrucciones en lenguaje natural. Esta herramienta marca el inicio de una generación que pretende operar sin que el usuario vea el código, integrándose en flujos de trabajo colaborativos y optimizando la productividad de equipos de desarrollo.
OpenAI presenta Codex, agente de código

Codex como agente

El viernes pasado, OpenAI presentó Codex, un innovador agente de codificación diseñado para recibir instrucciones en lenguaje natural y ejecutar tareas de programación de forma autónoma. A diferencia de los asistentes tradicionales, Codex puede interactuar con plataformas de gestión como Asana o Slack para asignar, supervisar y completar incidencias sin intervención constante del usuario.

Asistentes anteriores

Hasta ahora, herramientas como GitHub Copilot, Cursor o Windsurf han funcionado básicamente como un autocompletado avanzado dentro del entorno de desarrollo. Según Kilian Lieret, investigador de Princeton, la evolución pasó de presionar cada tecla al autocompletado inteligente y ahora avanza hacia sistemas que asumen responsabilidades de gestión en lugar de simples sugerencias de código.

Primeras críticas

Tras el lanzamiento de Devin a finales de 2024, numerosos analistas en YouTube señalaron que el sistema cometía tantos errores que supervisarlo consumía casi tanto tiempo como programar manualmente. A pesar de estos tropiezos, Cognition AI —empresa matriz de Devin— logró recaudar cientos de millones en marzo y alcanzó una valuación de 4 000 millones de dólares.

Supervisión humana

“Por ahora, un humano debe intervenir en la revisión de código para validar cada línea”, advierte Robert Brennan, CEO de All Hands AI. Las alucinaciones son frecuentes: en un caso, el agente inventó detalles de una API inexistente tras su fecha de corte de entrenamiento. OpenHands trabaja en detectar estos errores antes de que afecten proyectos reales.

Rendimiento en pruebas

El banco de problemas SWE-Bench es la métrica de referencia para evaluar a estos agentes. OpenHands lidera con 65.8 % de problemas resueltos, mientras que OpenAI afirma que su modelo codex-1 alcanzó un 72.1 %. Sin embargo, esta cifra aún no ha sido verificada de manera independiente y no garantiza un desarrollo completamente autónomo.

Futuro autónomo

La esperanza es que las mejoras continuas en modelos base impulsen a los agentes a convertirse en herramientas fiables. El gran reto será equilibrar el nivel de confianza depositado en ellos y mantener un ritmo de avance que permita delegar cada vez más cargas de trabajo, sin sacrificar la calidad ni la precisión del código.

Integración local

Con el fin de potenciar su adopción en mercados de habla hispana, Codex se podrá combinar próximamente con chatgpt en español, permitiendo a desarrolladores mexicanos y latinoamericanos asignar tareas de programación en su idioma y recibir soluciones completamente autónomas. Además, esta sinergia promete optimizar la colaboración entre equipos multiculturales y reducir significativamente los tiempos de entrega de proyectos.