OpenAI ha lanzado nuevas herramientas dirigidas a desarrolladores, que permitirán personalizar modelos de inteligencia artificial (IA) y crear aplicaciones que incluyan conversaciones en tiempo real con voz natural, además de mejorar la comprensión de imágenes.
La compañía presentó estas innovaciones durante su evento de desarrolladores, DevDay 2024, celebrado este martes en San Francisco, Estados Unidos. En el evento, se anunciaron diversas herramientas diseñadas para optimizar los modelos de IA de OpenAI.
Entre las novedades destaca un nuevo proceso de destilación de modelos, que ya está disponible en la plataforma de OpenAI. Este proceso permite a los desarrolladores aprovechar los resultados de modelos de gran capacidad, como o1-preview y GPT-4o, para perfeccionar otros más pequeños y eficientes, como el GPT-4o mini.
La nueva suite de herramientas ofrece la posibilidad de generar conjuntos de datos específicos para la destilación, así como la creación y ejecución de evaluaciones personalizadas, con el objetivo de medir el rendimiento de los modelos en tareas concretas. Todas estas funciones están integradas en la oferta de ajuste de OpenAI, facilitando a los desarrolladores un mayor control y personalización de los modelos.
Los desarrolladores también pueden realizar ajustes en GPT-4o con imágenes, además de con texto, con la nueva herramienta de ajuste fino de visión. De esta forma, pueden incorporar capacidades de comprensión de imágenes para ofrecer funciones de búsqueda visual o de detección de objetos.
‘Prompt Caching’ es una herramienta diseñada para que los desarrolladores ahorren costes y tiempo al permitir guardar en caché el contexto usado de manera frecuente en múltiples llamadas de API. Se aplica automáticamente en las últimas versiones de GPT-4o, GPT-4o mini, o1-preview y o1-mini, y sus versiones optimizadas.
«La API almacena en caché el prefijo más largo de una solicitud que se haya calculado previamente, comenzando con 1024 tokens y aumentando en incrementos de 128 tokens. Si reutilizas solicitudes con prefijos comunes, aplicaremos automáticamente el descuento de almacenamiento en caché de solicitudes sin necesidad de que realices ningún cambio en su integración de API», explica la compañía en el blog oficial.
Una última novedad anunciada en DevDay es ‘Realtime API’, un recurso con el que los desarrolladores pueden crear experiencias rápidas de conversión de voz a voz en sus aplicaciones. Está actualmente en una fase de beta pública, y es similar al modo de voz avanzado de ChatGPT, admite conversaciones naturales con una de la seis voces predefinidas.