Nvidia lanza Fugatto, la IA revolucionaria que transforma sonidos y música con precisión

Nvidia ha presentado Fugatto, un innovador modelo de Inteligencia Artificial diseñado para crear y transformar mezclas de voces, música y sonidos de manera completamente personalizada a partir de descripciones y combinaciones de texto y audio.

El nombre Fugatto corresponde a Foundational Generative Audio Transformer Opus 1 y ha sido descrito como «una navaja suiza para el sonido», destacando por ofrecer capacidades únicas que superan a las de otras tecnologías generativas.

Según Nvidia, Fugatto puede realizar tareas como componer música a partir de texto, añadir o eliminar instrumentos de una canción existente, cambiar el acento o la emoción de una voz e incluso generar sonidos inéditos. Estas características la posicionan como una herramienta revolucionaria en el ámbito del diseño de audio y la producción musical.

Este modelo representa un avance significativo en el uso de la IA aplicada al sonido, abriendo nuevas posibilidades creativas para profesionales de la música, el cine y los videojuegos.

El gerente de investigación de audio aplicado en Nvidia, Rafael Valle, ha matizado que esta herramienta es la primera que muestra propiedades emergentes, esto es, capacidades que surgen de la interacción de sus habilidades entrenadas, así como la capacidad de combinar instrucciones de formato libre.

Este modelo utiliza una técnica denominada ComposableART para combinar instrucciones que se le hayan proporcionado por separado durante el entrenamiento, de manera que una combinación de ellas podría solicitar un texto hablado con acento francés y tono de tristeza. Esto significa que el usuario puede detallar lo cerrado o abierto que sea el acento o el grado de la emoción de lo que narre.

Para ofrecer esa flexibilidad en su uso, también genera sonidos que cambian con el tiempo, lo que Nvidia ha denominado ‘interpolación temporal’. De esta manera, se pueden crear los sonidos de una tormenta que se desplaza por una zona concreta con ‘crescendos’ de truenos que se desvanecen en la distancia.

La compañía también ha indicado que, a diferencia de la mayoría de los modelos, «que solo pueden recrear los datos de entrenamiento a los que han sido expuestos», Fugatto puede crear paisajes sonoros que transformen el contexto de una tormenta eléctrica que se transforme en el amanecer con el sonido de pájaros cantando.

Fugatto se podrá emplear, por ejemplo, en campañas de marketing, para orientarlas a múltiples regiones o contextos, aplicando diferentes acentos y emociones a las voces en ‘off’ que narren los anuncios. Asimismo, los desarrolladores de videojuegos podrán usarlo para modificar los recursos pregrabados de sus títulos y que se puedan adaptar a la acción de éste a medida que transcrurren las partidas, entre otros casos de uso.

Related Posts