Um novo sistema de fones de ouvido com inteligência artificial permite traduzir a fala de várias pessoas ao mesmo tempo, ajudando a entender conversas em diferentes idiomas. Chamado de Tradução Espacial de Fala, ele identifica a direção e as características vocais de cada falante, tornando mais fácil saber quem está falando em um grupo. O professor Shyam Gollakota, que participou do projeto, acredita que essa tecnologia pode ajudar pessoas que têm dificuldade em se comunicar em outros idiomas. Diferente de outros sistemas que traduzem apenas uma pessoa e soam robóticos, este novo sistema usa fones de ouvido comuns com microfones e um computador potente para funcionar. Ele consegue traduzir palavras de francês, alemão e espanhol para o inglês, mantendo o tom e a emoção da voz original, o que faz com que a tradução pareça mais natural. A equipe está trabalhando para diminuir o tempo de espera entre a fala e a tradução, para que as conversas sejam mais fluidas. No entanto, isso é desafiador, pois a rapidez da tradução depende da estrutura das línguas.
Um novo sistema de tradução em tempo real, chamado Spatial Speech Translation, foi desenvolvido por pesquisadores da Universidade de Washington. O projeto foi apresentado na ACM CHI Conference em Yokohama, Japão, e promete revolucionar a comunicação entre falantes de diferentes idiomas. A tecnologia permite a tradução simultânea de múltiplos falantes, mantendo as características vocais e emocionais de cada um.
O sistema utiliza fones de ouvido com cancelamento de ruído e microfones, conectados a um laptop com o chip M2 da Apple. Esse chip é capaz de suportar redes neurais, essenciais para o funcionamento do sistema. O professor Shyam Gollakota, um dos responsáveis pelo projeto, destacou a importância da tecnologia para pessoas que enfrentam barreiras linguísticas, como sua mãe, que tem dificuldade em se comunicar em inglês.
Diferente de outros sistemas que focam em um único falante e oferecem traduções robóticas, o Spatial Speech Translation identifica a direção e as características vocais de cada interlocutor. O sistema divide o espaço em regiões e utiliza um modelo de inteligência artificial para localizar os falantes. Outro modelo traduz as falas de francês, alemão ou espanhol para o inglês, preservando a tonalidade e o timbre da voz original.
Os pesquisadores estão trabalhando para reduzir a latência da tradução, buscando um tempo de resposta inferior a um segundo. Esse desafio é complexo, pois a velocidade de tradução varia conforme a estrutura das línguas. O sistema demonstrou melhor desempenho na tradução do francês para o inglês, seguido do espanhol e, por último, do alemão.
A equipe de Gollakota acredita que essa tecnologia pode facilitar a comunicação em ambientes barulhentos, como festas ou passeios turísticos. O avanço na tradução em tempo real representa um passo significativo na superação das barreiras linguísticas, permitindo que mais pessoas compartilhem suas ideias e experiências.
Entre na conversa da comunidade