OpenAI lanza Operator, un agente con razonamiento avanzado y navegación autónoma

OpenAI ha presentado la versión preliminar de Operator, un agente que integra las capacidades del modelo GPT-4o con un razonamiento avanzado basado en aprendizaje. Este agente puede interactuar de manera autónoma con interfaces gráficas de usuario (GUI) para navegar por internet como lo haría un ser humano.

Operator funciona mediante el modelo Computer-Using Agent (CUA), desarrollado tras años de investigación en comprensión y razonamiento multimodal, según ha indicado OpenAI. Esta tecnología permite dividir tareas en pasos, adaptarse a cambios inesperados y corregir errores en tiempo real.

El modelo combina el procesamiento de datos directamente de los píxeles de la pantalla con la capacidad de utilizar un ratón y teclado virtuales. De este modo, puede realizar acciones como hacer clic, desplazarse o escribir de manera autónoma.

De este modo, puede actuar con capacidades humanas en una amplia gama de entornos digitales, interactuar con botones, menús y campos de texto (GUI), realizar tareas como complementar formularios y navegar por sitios web sin necesidad de interfaces de programación de aplicaciones (API) especializadas.

No obstante, la compañía tecnológica ha señalado que aunque este modelo maneja la mayoría de los pasos de forma automática, busca la confirmación del usuario para acciones sensibles. Por ejemplo, ingresar datos de inicio de sesión, responder formularios CAPTCHA o ejecutar una transacción bancaria.

   Por otra parte, OpenAI ha aclarado que almacena los chats, el historial de navegación y las capturas de pantalla que realiza Operator para ofrecer su servicio hasta que los eliminen los usuarios, que pueden hacerlo a través de la página de Configuración de la herramienta.

   Asimismo, al eliminar un chat, se borran todas las capturas de pantalla tomadas durante ese chat. Una vez borrada toda esta información, se eliminarán de los sistemas de la compañía en un plazo de 90 días.

   Debido a todas las capacidades comentadas, OpenAI ha señalado que su nuevo trabajo «marca el siguiente paso en el desarrollo de la IA, debido a que permite que los modelos utilicen las mismas herramientas de las que dependen los humanos a diario y abre la puerta a una amplia gama de nuevas aplicaciones».

   CUA aún se encuentra en una etapa temprana de desarrollo y tiene algunas limitaciones. Asimismo, está avalado por WebArena y WebVoyager, logrando una tasa de éxito del 58,1 por ciento en la primera y un 87 por ciento en la segunda.

Por otra parte, OpenAI ha señalado que OSWorld, un punto de referencia que evalúa la capacidad de los modelos para controlar sistemas operativos completos, como Ubuntu, Windows y macOS, le ha otorgado una tasa de éxito del 38,1 por ciento. No obstante, la compañía ha observado un escalamiento en tiempo de prueba. lo que quiere decir que el rendimiento de modelo mejora cuando debe ejecutar más pasos o acciones.

La firma también ha subrayado que CUA se ha desarrollado con la seguridad como máxima prioridad para abordar los desafíos que plantea el acceso de un agente al mundo real. De esta manera, está entrenado para rechazar tareas dañinas y actividades ilegales o irregulares.

Tampoco puede acceder a sitios web que la propia OpenAI ha bloqueado de forma preventiva, como webs de contenidos para adultos o juegos de azar, y es capaz de identificar actividades fraudulentas. De ese modo, monitoriza la actividad y pausa la ejecución de una acción si detecta contenido sospechoso en el panel.

   Por el momento, este agente se está implementando a través de una vista previa de investigación a través de operator.chatgpt.com y ya tienen acceso a él los suscriptores del nivel Pro en Estados Unidos. Próximamente, planea llevarlo a usuarios de Plus, Team y Enterprise, así como integrar sus capacidades en ChatGPT.

Related Posts