OpenAI simplifica la creación de agentes con nuevas APIs y SDK
13 de Marzo de 2025La compañía ha presentado un nuevo conjunto de APIs y herramientas específicamente diseñadas para simplificar el desarrollo de aplicaciones agenticas
En un movimiento estratégico que busca simplificar y potenciar la creación de sistemas autónomos, OpenAI ha anunciado el lanzamiento de un conjunto de herramientas innovadoras diseñadas para ayudar a desarrolladores y empresas a construir agentes útiles y confiables. Esta nueva plataforma se basa en las capacidades avanzadas de modelos recientes, como el razonamiento avanzado, las interacciones multimodales y las nuevas técnicas de seguridad, que han sentado las bases para que los modelos aborden tareas complejas de múltiples pasos necesarias para la construcción de agentes.
Sin embargo, OpenAI reconoce que transformar estas capacidades en agentes listos para producción ha presentado desafíos, requiriendo a menudo una extensa iteración de prompts y lógica de orquestación personalizada sin suficiente visibilidad o soporte integrado. Para abordar estos retos, la compañía ha presentado un nuevo conjunto de APIs y herramientas específicamente diseñadas para simplificar el desarrollo de aplicaciones agenticas.
Las novedades clave incluyen:
- La nueva API de Responses: Esta API combina la simplicidad de la API de Chat Completions con las capacidades de uso de herramientas de la API de Assistants, ofreciendo una base más flexible para construir aplicaciones agenticas a medida que evolucionan las capacidades de los modelos. Con una sola llamada a la API de Responses, los desarrolladores podrán resolver tareas cada vez más complejas utilizando múltiples herramientas y turnos de modelo.
- Herramientas integradas: Se han introducido herramientas como búsqueda web, búsqueda de archivos y uso de la computadora. Estas herramientas están diseñadas para trabajar en conjunto y conectar los modelos con el mundo real, haciéndolos más útiles para completar tareas. La búsqueda web está disponible como herramienta al usar gpt-4o y gpt-4o-mini. La búsqueda de archivos permite recuperar información relevante de grandes volúmenes de documentos. La herramienta de uso de la computadora permite automatizar tareas en un ordenador capturando acciones del ratón y el teclado generadas por el modelo.
- El nuevo SDK de Agentes: Este SDK de código abierto simplifica la orquestación de flujos de trabajo de un solo agente y multiagente, ofreciendo mejoras significativas en comparación con el SDK experimental Swarm lanzado el año pasado. Las mejoras incluyen agentes fácilmente configurables con instrucciones claras y herramientas integradas, transferencias inteligentes de control entre agentes, guardrails configurables para la validación de entradas y salidas, y herramientas de trazado y observabilidad para depurar y optimizar el rendimiento.
- Herramientas de observabilidad integradas: Estas herramientas permiten rastrear e inspeccionar la ejecución del flujo de trabajo del agente.
Estas nuevas herramientas agilizan la lógica central del agente, la orquestación y las interacciones, facilitando significativamente que los desarrolladores comiencen a construir agentes. OpenAI planea lanzar herramientas y capacidades adicionales en las próximas semanas y meses para simplificar y acelerar aún más la creación de aplicaciones agenticas en su plataforma.
¿Qué significa esto para las APIs existentes?
La API de Chat Completions seguirá siendo la API más utilizada, y OpenAI se compromete a seguir ofreciéndole soporte con nuevos modelos y capacidades. Los desarrolladores que no requieran herramientas integradas pueden seguir utilizándola con confianza. Sin embargo, la API de Responses es un superconjunto de Chat Completions con el mismo gran rendimiento, por lo que para las nuevas integraciones, se recomienda comenzar con la API de Responses.
En cuanto a la API de Assistants, OpenAI ha incorporado mejoras clave en la API de Responses basadas en los comentarios de los desarrolladores, haciéndola más flexible, rápida y fácil de usar. El objetivo es lograr una paridad total de características entre la API de Assistants y la API de Responses, incluyendo soporte para objetos similares a Assistant y Thread, y la herramienta Code Interpreter. Una vez que esto se complete, OpenAI planea anunciar formalmente la deprecación de la API de Assistants con una fecha límite prevista para mediados de 2026. Se proporcionará una guía de migración clara para que los desarrolladores puedan preservar sus datos y migrar sus aplicaciones a la API de Responses. Hasta entonces, se seguirán lanzando nuevos modelos para la API de Assistants. La API de Responses representa la dirección futura para la construcción de agentes en OpenAI.
Detalles de las Nuevas Herramientas Integradas:
- Búsqueda Web: Los desarrolladores ahora pueden obtener respuestas rápidas y actualizadas con citas claras y relevantes de la web utilizando gpt-4o y gpt-4o-mini. Se han visto casos de uso tempranos en asistentes de compras, agentes de investigación y agentes de reserva de viajes. Por ejemplo, Hebbia utiliza la búsqueda web para ayudar a empresas financieras y legales a extraer información de grandes conjuntos de datos. La búsqueda web en la API está impulsada por el mismo modelo utilizado para la búsqueda en ChatGPT. Las respuestas generadas incluyen enlaces a las fuentes. La búsqueda web está disponible en vista previa en la API de Responses, y también se ofrece acceso directo a los modelos de búsqueda afinados en la API de Chat Completions a través de gpt-4o-search-preview y gpt-4o-mini-search-preview, con precios a partir de $30 y $25 por cada mil consultas respectivamente.
- Búsqueda de Archivos: Esta herramienta mejorada permite a los desarrolladores recuperar fácilmente información relevante de grandes volúmenes de documentos, con soporte para múltiples tipos de archivos, optimización de consultas, filtrado de metadatos y reranking personalizado. Casos de uso incluyen ayudar a agentes de soporte al cliente a acceder a preguntas frecuentes, asistir a asistentes legales a referenciar casos pasados y ayudar a agentes de codificación a consultar documentación técnica. Navan utiliza la búsqueda de archivos en su agente de viajes impulsado por IA para proporcionar respuestas precisas de artículos de la base de conocimientos. Esta herramienta está disponible en la API de Responses, con un precio de $2.50 por cada mil consultas y $0.10/GB/día por el almacenamiento de archivos (el primer GB es gratuito). También se ha añadido un nuevo endpoint de búsqueda a los objetos de la Vector Store API.
- Uso de la computadora: Esta herramienta permite construir agentes capaces de completar tareas en un ordenador. Está impulsada por el mismo modelo Computer-Using Agent (CUA) que impulsa Operator. Este modelo de investigación estableció un nuevo récord de vanguardia en varias pruebas de referencia. La herramienta captura las acciones del ratón y el teclado generadas por el modelo, lo que permite a los desarrolladores automatizar tareas traduciendo estas acciones en comandos ejecutables. Los casos de uso incluyen automatizar flujos de trabajo basados en navegador y acceder a información previamente inaccesible a través de APIs. Unify utiliza esta herramienta para acceder a información para equipos de ventas, y Luminai la integró para automatizar flujos de trabajo operativos complejos para empresas con sistemas heredados sin disponibilidad de API. Esta herramienta está disponible como vista previa de investigación en la API de Responses para desarrolladores en los niveles de uso 3-5, con precios de $3 por 1 millón de tokens de entrada y $12 por 1 millón de tokens de salida. Se recomienda la supervisión humana debido a que el modelo aún es susceptible a errores, especialmente en entornos que no son navegadores.
El SDK de Agentes en Acción
El SDK de Agentes simplifica la orquestación de flujos de trabajo de agentes y se puede utilizar en diversas aplicaciones, como la automatización de la atención al cliente, la investigación de varios pasos, la generación de contenido, la revisión de código y la prospección de ventas. Coinbase utilizó el SDK de Agentes para crear prototipos e implementar rápidamente AgentKit, un conjunto de herramientas que permite a los agentes de IA interactuar con billeteras de criptomonedas y diversas actividades on-chain. Box también pudo crear rápidamente agentes que aprovechan la búsqueda web y el SDK de Agentes para permitir a las empresas buscar, consultar y extraer información de datos no estructurados almacenados dentro de Box y fuentes de Internet públicas. El SDK de Agentes funciona con la API de Responses y la API de Chat Completions, y también será compatible con modelos de otros proveedores que ofrezcan un endpoint de API similar a Chat Completions. Actualmente está disponible para Python, y pronto se admitirá Node.js.
Construyendo la Plataforma para el Futuro de los Agentes
OpenAI cree que los agentes pronto se convertirán en una parte integral de la fuerza laboral, mejorando significativamente la productividad en todas las industrias. La compañía se compromete a proporcionar los componentes básicos que permitan a los desarrolladores y empresas crear de manera efectiva sistemas autónomos que generen un impacto en el mundo real. Con estos nuevos lanzamientos, OpenAI busca ofrecer a los desarrolladores una experiencia de plataforma fluida para construir agentes que puedan ayudar con una variedad de tareas en cualquier industria.
Este lanzamiento representa un paso significativo hacia la democratización de la construcción de agentes, facilitando que una gama más amplia de desarrolladores aproveche el poder de la IA para automatizar tareas complejas y crear aplicaciones innovadoras. Los desarrolladores ya pueden explorar la documentación y comenzar a construir con estas nuevas herramientas.