Como a inteligência artificial consegue criar voz?

Como a inteligência artificial consegue criar voz?

A inteligência artificial é uma evolução tecnológica que permite aos sistemas simular a inteligência humana, como a capacidade de criar ou reproduzir timbres de voz. Entenda como isso é possível.

A ideia de inteligência artificial (IA) não é algo tão novo como parece para a maioria das pessoas. O termo tem sido usado desde a década de 1950, e acompanha os esforços científicos para a criação de ferramentas capazes de simular a inteligência humana e, assim, contribuir com a busca por soluções de problemas e tomada de decisões. Mas as IAs têm sido um dos principais assuntos na atualidade, devido aos novos recursos disponíveis, como a capacidade de criar ou reproduzir timbres de voz, por exemplo, o que tem gerado uma série de conteúdos e discussões sobre o tema nas redes sociais.

Sem solução para o seu problema com uma empresa? Nós podemos ajudar. Faça a sua reclamação agora!

Mas como um sistema tecnológico consegue criar ou reproduzir um timbre de voz tão perfeitamente e de forma tão rápida? E como funciona uma inteligência artificial? É sobre esse assunto que falaremos neste artigo. Acompanhe para saber mais.

O que é inteligência artificial? 

Cunhada pelo professor John McCarthy em 1956, no Darmouth College, a inteligência artificial, também chamada de IA ou AI (artificial intelligence), é uma evolução tecnológica que permite aos sistemas simular a inteligência humana, como aprender com as informações do ambiente, analisar dados, encontrar soluções e tomar decisões. 

Diferentemente de programas de computadores, que seguem as instruções dos algoritmos, a inteligência artificial tem autonomia na tomada de decisão, com base em bancos de dados muito extensos. Ela está baseada em outra tecnologia bastante falada nos últimos tempos: machine learning (ou aprendizado de máquina).

Dica: Como montar uma casa inteligente com tecnologia?

O que é IA generativa? 

O dicionário Priberam define a palavra “generativo” como “que é capaz de gerar o conjunto infinito das frases de uma língua por meio da aplicação de um conjunto finito de regra”. Embora essa definição esteja relacionada ao campo da Linguística, ela ajuda a entender o que seria a inteligência artificial generativa.

Vimos que as IAs são capazes de aprender tendo como base extensos bancos de dados disponibilizados para o sistema. Ainda que essas informações sejam em grande quantidade, elas são finitas. Mas, a partir delas, a inteligência artificial consegue gerar novas informações e, mais do que isso, de forma original. 

Como as IAs estão em constante evolução por si só (sem precisar da programação, ou seja, dos comandos humanos), as respostas para a mesma pergunta feita por pessoas diferentes também serão distintas. E a mesma questão feita pela mesma pessoa em momentos distintos também terá retornos diferentes.

A ferramenta tem gerado bastante curiosidade nas pessoas, que se impressionam com a capacidade de geração de conteúdo por IAs como o ChatGPT. Além dos textos, outras modalidades de conteúdo têm chamado a atenção, que é a capacidade das IA gerarem imagens, muitas vezes perfeitas, e reproduzir timbres de voz de pessoas conhecidas.

Tipos de voz criados pela inteligência artificial 

Frequentemente surgem novas IAs no mercado da tecnologia, mas muitas com a mesma função. Hoje, já temos uma quantidade grande de geradores de voz, desde os que oferecem um banco de timbres até aqueles que clonam características das vozes, e mesmo das emoções, das pessoas, permitindo a criação de novos áudios com esse material. Veja a seguir algumas possibilidades de usos para a inteligência artificial de voz. 

Personagens e celebridades 

Algumas ferramentas permitem a geração de áudios com timbres de personagens ou pessoas famosas, como o site Falatron, por exemplo. Nesse caso, os timbres de voz já estão no banco de dados do site, permitindo que o usuário escolha entre as opções disponíveis. Só é permitido gerar áudios de até 5 segundos, com textos de no máximo 300 caracteres.

Outras ferramentas de IA, como o aplicativo BETA, criado por ex-funcionários do Google, permite clonar a voz de uma pessoa famosa a partir de uma amostra de voz de 60 segundos. É possível, inclusive, clonar o sotaque da celebridade em questão. A partir da clonagem, o usuário pode criar áudios personalizados, e isso de forma gratuita.

Músicas 

Um meme muito compartilhado nas redes sociais nos últimos tempos é o da cantora americana Ariana Grande cantando músicas brasileiras muito populares. Isso é possível devido à inteligência artificial. Um dos programas utilizados para esse fim é o SoftVC VITS Singing Voice Conversion (ou So-VITS-SVC). O usuário sobe um arquivo de áudio de algum cantor e a inteligência artificial clona o timbre de voz e o sotaque da pessoa, permitindo alocar esse material em qualquer outra música, gerando covers dos mais inusitados.

Tenha acesso a descontos em mais de 5.000 lojas e comece a economizar já. Clique agora.

Vozes personalizadas 

Também existem IAs para geração de voz personalizada. Geralmente, utiliza-se esse recurso para produção de audiodescrição, audiobooks, narrações de vídeos e até podcasts. Uma das ferramentas utilizadas com esse fim é a Murf.AI. O usuário pode escolher entre o timbre de voz, o sotaque, a velocidade ou cadência da fala, entre outras possibilidades.

Sua própria voz 

Apesar de vermos com mais frequência a clonagem e reprodução da voz de pessoas famosas, principalmente por causa do apelo nas redes sociais, as mesmas ferramentas de inteligência artificial podem ser utilizadas para gerar áudios com a voz do próprio usuário. É só fornecer um trecho de um áudio e em pouco tempo é possível gerar novos áudios a partir de textos inseridos no software escolhido.

Dica: Como editar fotos e vídeos? Conheça alguns aplicativos

Como a inteligência artificial consegue criar vozes? 

Diversas empresas de tecnologia têm criado as suas próprias inteligências artificiais, o que significa que diferentes metodologias têm sido utilizadas também. Mas, basicamente, a maioria das IAs de geração de voz tem procedimentos parecidos na sua forma de funcionar.

Assim como uma IA Generativa de texto, como o ChatGPT, utiliza bancos de dados para dar origem a textos originais, um gerador de voz também se baseia em dados, mas, nesse caso, funciona por meio da coleta e análise de áudios. A IA é treinada para mapear símbolos fonéticos em formas de onda de áudio. Dessa forma, é possível que o software gere modelos de voz. 

Neste grupo de ferramentas, algumas se destacam, como o Falatron, que citamos anteriormente; a Resemble AI, que, além de permitir a geração de voz personalizada, possibilita que o usuário crie áudios a partir de textos, utilizando o seu próprio timbre; e VALL-E, ferramenta da Microsoft lançada no início deste ano.

A VALL-E, diferentemente da BETA, que precisa de áudio de 60 segundos para clonar uma voz, consegue simular um timbre de voz com um áudio de apenas 3 segundos. Outra novidade implementada pela ferramenta é a capacidade de reproduzir emoções para o tom de voz clonado. O usuário insere um texto e pode escolher emoções como raiva, divertido, sonolento, neutro, entre outras.

Guia do Direito do Consumidor. Conheça seus principais direitos. Leia aqui!

O que esperar do futuro da inteligência artificial para criação de voz? 

A inteligência artificial já tem tido impacto significativo no presente em diferentes áreas da vida, desde o entretenimento até aspectos de segurança de dados, por exemplo. E a perspectiva é que a tecnologia esteja cada vez mais presente, sobretudo nas indústrias, na segurança pública e nos serviços bancários, otimizando processos, identificando fraudes e anomalias de forma rápida e precisa.

É esperado que as IAs geradoras de voz também sejam mais amplamente utilizadas em dispositivos de comando de voz, como anunciou a Amazon sobre a possibilidade de customizar a voz da Alexa, e na otimização de serviços como locuções, audiodescrição e traduções simultâneas. Hoje, já existem ferramentas de tradução simultânea que desenvolvem um timbre próximo ao da pessoa que fala, e isso em tempo real.

Ao mesmo tempo, preocupa o mau uso da inteligência artificial, como na sofisticação de golpes e produção de fake news. A polarização política pode ser um catalisador para a produção de falas atribuídas a um e outro candidato, manchando a sua reputação perante o público que não tem o costume de checar a veracidade das informações.

Os geradores de voz também são um desafio jurídico. É discutido se a voz simulada pode ser enquadrada nos direitos autorais, se é possível considerar esse elemento da característica humana como um identificador único de um indivíduo e como as pessoas podem ser resguardadas nesse mar de possibilidades iniciado com a popularização desses softwares.

Dica: Entenda as diferenças entre smartband e smartwatch

Use a inteligência artificial com responsabilidade

Embora seja um avanço tecnológico importante, com potencial de mudar a forma como trabalhamos, estudamos e resolvemos problemas diversos, o que pode facilitar a vida das pessoas no dia a dia, é preciso usar a inteligência artificial com responsabilidade.

Os geradores de voz já têm sido utilizados por pessoas mal-intencionadas para aplicarem golpes ou espalharem fake news, o chamado deep fake. É preciso estar atento para não ser enganado e verificar a veracidade do que recebe, acessando veículos de informação que tenham credibilidade antes de compartilhar um conteúdo sensível.

Para ter acesso a outros artigos como este, e também para conhecer e ficar atento aos seus direitos como consumidor, faça parte do nosso canal do Telegram e baixe o App da PROTESTE. Você pode acompanhar outros artigos sobre tecnologia, aplicativos, economia doméstica, saúde, bem-estar e muito mais.

Também é possível se associar à PROTESTE para ter benefícios como o acesso completo ao canal Reclame, para enviar reclamações contra fornecedores de produtos e serviços, bem como auxílio de especialistas em direito do consumidor e intervenção extrajudicial, em caso de problemas com empresas. Os associados também podem acessar os testes comparativos de produtos e serviços realizados pela PROTESTE, e assim fazer as melhores escolhas de consumo. Clique aqui para se tornar um associado da PROTESTE agora mesmo.