“Fugatto: O novo modelo de IA da NVIDIA que gera áudio a partir de texto”

A NVIDIA lançou um novo modelo experimental de IA generativa, descrito como "um canivete suíço para som". Chamado Foundational Generative Audio Transformer Opus 1, ou Fugatto, o modelo pode receber comandos de prompts de texto e usá-los para criar áudio ou modificar arquivos existentes de música, voz e som. Foi projetado por uma equipe de pesquisadores de IA de todo o mundo, e a NVIDIA afirma que isso tornou as "capacidades multilíngues e com múltiplos sotaques do modelo mais fortes".

Rafael Valle, um dos pesquisadores por trás do projeto e gerente de pesquisa de áudio aplicada na NVIDIA, disse: "Queríamos criar um modelo que entenda e gere som como os humanos fazem." A empresa listou alguns cenários do mundo real em que o Fugatto poderia ser útil em seu anúncio. Produtores de música, sugeriu, poderiam usar a tecnologia para gerar rapidamente um protótipo para uma ideia de música, que eles podem então editar facilmente para experimentar diferentes estilos, vozes e instrumentos. Desenvolvedores de jogos poderiam usá-lo para criar variações de ativos pré-gravados para se ajustar às mudanças no jogo com base nas escolhas e ações dos jogadores. Além disso, os pesquisadores descobriram que o modelo pode realizar tarefas que não fazem parte de seu pré-treinamento, com algum ajuste fino. Ele pode combinar instruções em que foi treinado separadamente, como gerar fala que soa zangada com um sotaque específico ou o som de pássaros cantando durante uma tempestade. O modelo pode gerar sons que mudam com o tempo, como o impacto de uma tempestade enquanto ela se move pela terra.

A NVIDIA não disse se dará acesso público ao Fugatto, mas o modelo não é a primeira tecnologia de IA generativa capaz de criar sons a partir de prompts de texto. Outras empresas já desenvolveram tecnologias semelhantes.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima