segunda-feira, 26 de outubro de 2020

Inteligência artificial supera humanos em reconhecimento de fala

 

Graças ao seu sistema de reconhecimento de voz superior, o Lecture Translator do KIT fornecerá melhores resultados com latência mínima no futuro. Crédito: KIT

Seguir uma conversa e transcrevê-la com precisão é um dos maiores desafios da pesquisa em inteligência artificial (IA). Pela primeira vez, pesquisadores do Karlsruhe Institute of Technology (KIT) conseguiram desenvolver um sistema de computador que supera os humanos no reconhecimento de linguagem falada espontaneamente com latência mínima. Isso foi relatado em arXiv.org.

“Quando as pessoas falam umas com as outras, ocorrem paradas, gagueiras, hesitações, como 'er' ou 'hmmm', risos e tosses”, diz Alex Waibel, professor de informática do KIT. "Frequentemente, as palavras não são pronunciadas claramente." Isso torna difícil até mesmo para as pessoas fazer anotações precisas de uma conversa. "E até agora, isso tem sido ainda mais difícil para a IA." Os cientistas do KIT e a equipe da KITES, uma empresa iniciante da KIT, agora programaram um sistema de computador que executa essa tarefa melhor do que os humanos e mais rápido do que outros sistemas.

Waibel já desenvolveu um tradutor automático ao vivo que traduz diretamente palestras universitárias do alemão ou do inglês para as línguas faladas por estudantes estrangeiros. Este "tradutor de palestras" é usado nas salas de aula do KIT desde 2012. "O reconhecimento da fala espontânea é o componente mais importante deste sistema", explica Waibel, "pois erros e atrasos no reconhecimento tornam a tradução incompreensível. Na fala conversacional, a taxa de erro humano atinge cerca de 5,5%. Nosso sistema agora atinge 5,0%." 

Além da precisão, no entanto, a velocidade do sistema para produzir resultados é tão importante quanto para que os alunos possam acompanhar a aula ao vivo. Os pesquisadores agora conseguiram reduzir essa latência a um segundo. Esta é a menor latência relatada alcançada por um sistema de reconhecimento de voz dessa qualidade até hoje, diz Waibel.

A taxa de erro e a latência são medidas usando o teste científico padronizado e internacionalmente reconhecido de "benchmark do painel de controle". Este benchmark (definido pelo US NIST) é amplamente usado por pesquisadores internacionais de IA em sua competição para construir uma máquina que se aproxima dos humanos no reconhecimento da fala espontânea em condições comparáveis, ou mesmo superando-os.

De acordo com Waibel, o reconhecimento de voz rápido e de alta precisão é uma etapa essencial para o processamento posterior posterior. Ele permite diálogo, tradução e outros módulos de IA para fornecer melhor interação baseada em voz com as máquinas.

Via: Techxplore 
Share:

0 comentários:

Postar um comentário

Translate

Seguidores

Parceiros - Estamos em construção!

Categorias

Visualizações

Flags

Flag Counter