¿Cómo funciona Operator, el nuevo agente de IA autónomo para la Web de OpenAI?

Permite a los usuarios automatizar tareas como reservar viajes, realizar compras en línea y gestionar reservas en restaurantes

Sam Altman, CEO de OpenAI, había anticipado que 2025 sería el año de los agentes de inteligencia artificial. Y la compañía ha cumplido con el lanzamiento de Operator, un agente de IA diseñado para ejecutar tareas de forma autónoma directamente en navegadores de internet. Este nuevo agente está disponible inicialmente en los Estados Unidos para los suscriptores del plan Pro de ChatGPT.



¿Cómo Funciona Operator?


Operator, accesible en operator.chatgpt.com, permite a los usuarios automatizar tareas como reservar viajes, realizar compras en línea y gestionar reservas en restaurantes. La plataforma ofrece categorías de automatización como compras, envíos y viajes. Al utilizar un navegador dedicado, Operator muestra cada acción que realiza en una ventana separada.

La tecnología que impulsa a Operator es el Computer-Using Agent (CUA), un modelo que combina visión computacional con razonamiento avanzado. CUA está capacitado para interactuar con los elementos visuales de los sitios web, como botones y menús, sin depender de APIs específicas. El modelo CUA solicita la confirmación del usuario antes de llevar a cabo tareas con impactos externos, como el envío de pedidos o correos electrónicos.

CUA procesa datos de píxeles para comprender lo que ocurre en la pantalla y utiliza mouse y teclado virtuales para completar acciones. El agente puede navegar tareas de varios pasos, gestionar errores y adaptarse a cambios inesperados. CUA opera en un ciclo iterativo que integra percepción, razonamiento y acción:
  • Percepción: Captura capturas de pantalla del ordenador y las agrega al contexto del modelo.
  • Razonamiento: Utiliza el método de "cadena de pensamiento" para analizar los siguientes pasos, considerando capturas de pantalla y acciones pasadas. Este proceso mejora el rendimiento de la tarea al permitir que el modelo evalúe sus observaciones y adapte su estrategia.
  • Acción: Realiza acciones como hacer clic, desplazarse o escribir hasta completar la tarea o requerir intervención del usuario.

Seguridad y Limitaciones


OpenAI ha priorizado la seguridad en el desarrollo de CUA, implementando varias medidas para mitigar riesgos. Estas medidas incluyen:
  • Confirmaciones del usuario: CUA solicita confirmación antes de completar acciones con efectos externos, permitiendo al usuario revisar el trabajo del modelo antes de que se haga permanente.
  • Limitaciones de tareas: CUA no gestiona tareas de alto riesgo como transacciones bancarias o decisiones delicadas.
  • Modo de vigilancia: En sitios web sensibles, como el correo electrónico, se requiere la supervisión activa del usuario.
  • Refusals: El modelo CUA está entrenado para rechazar tareas dañinas y actividades ilegales o reguladas.
  • Blocklist: Operator no puede acceder a sitios web que han sido bloqueados preventivamente.
  • Moderación: Las interacciones del usuario son revisadas en tiempo real por sistemas de seguridad automatizados para asegurar el cumplimiento de las políticas de uso.
  • Detección offline: Se utilizan sistemas automatizados y revisión humana para identificar usos prohibidos en áreas prioritarias, como la seguridad infantil y actividades engañosas.

A pesar de estas precauciones, OpenAI reconoce que CUA aún está en una etapa temprana y tiene limitaciones. CUA tiene dificultades con interfaces de usuario no familiares y con la edición de texto.

Un nuevo paso en la evolución de la IA


Operator representa un avance significativo en la automatización de tareas web por medio de la inteligencia artificial. A diferencia de los asistentes virtuales anteriores, Operator puede actuar directamente en la web. Este lanzamiento se alinea con la visión de OpenAI de distribuir los beneficios de la IA a todos, y la empresa planea usar la retroalimentación de los usuarios para mejorar continuamente CUA.

OpenAI también tiene planes de hacer que CUA esté disponible a través de una API, permitiendo a los desarrolladores crear sus propios agentes de uso informático. La empresa está colaborando con otras compañías para garantizar que Operator cumpla los términos de servicio y mitigar los riesgos asociados con los agentes de IA independientes.

Este lanzamiento marca un hito en el desarrollo de agentes autónomos, lo que representa un paso importante hacia una mayor automatización y accesibilidad de la inteligencia artificial.