More

    Pesquisadores da UC Berkeley detectam ‘fala silenciosa’ com eletrodos e IA


    Os pesquisadores da UC Berkeley dizem que são os primeiros a treinar IA usando palavras silenciosas e sensores que coletam a atividade muscular. A fala silenciosa é detectada por meio de eletromiografia (EMG), com eletrodos colocados na face e na garganta. O modelo se concentra no que os pesquisadores chamam de voz digital para prever palavras e gerar fala sintética.

    Os pesquisadores acreditam que seu método pode permitir uma série de aplicativos para pessoas que não conseguem produzir fala audível e pode suportar a detecção de fala para assistentes de IA ou outros dispositivos que respondem a comandos de voz.

    “Voz digitalmente silenciosa tem uma ampla gama de aplicações potenciais”, diz o artigo da equipe. “Por exemplo, ele poderia ser usado para criar um dispositivo análogo a um fone de ouvido Bluetooth que permite que as pessoas conversem ao telefone sem interromper as pessoas ao seu redor. Esse dispositivo também pode ser útil em ambientes onde o ambiente é muito alto para capturar a fala audível ou onde é importante manter o silêncio. ”

    Outro exemplo de IA que pode capturar palavras da fala silenciosa – IA de leitura labial – pode alimentar ferramentas de vigilância ou apoiar casos de uso para pessoas surdas.

    Para sua previsão de fala silenciosa, os pesquisadores da UC Berkeley usaram uma abordagem “onde os alvos de saída de áudio são transferidos de gravações vocalizadas para gravações silenciosas das mesmas declarações”. Um decodificador WaveNet é então usado para gerar previsões de voz de áudio.

    Em comparação com uma linha de base treinada com dados EMG vocalizados, a abordagem oferece um declínio de 64% a 4% nas taxas de erro de palavras nas transcrições de frases de livros e uma redução de erro de 95% na linha de base. Para fomentar o trabalho adicional nesta área, os pesquisadores abriram o código-fonte de um conjunto de dados de quase 20 horas de dados EMG faciais.

    Um artigo sobre o modelo intitulado “Voz digital da fala silenciosa”, de David Gaddy e Dan Klein, recebeu o prêmio de melhor artigo no evento Métodos empíricos em processamento de linguagem natural (EMNLP) realizado online na semana passada. A empresa Hugging Face recebeu o prêmio de Best Demo Paper dos organizadores por seu trabalho na biblioteca de código aberto Transformers. Em outros trabalhos do EMNLP, membros do projeto de código aberto Masakhane para tradução de idiomas africanos publicaram um estudo de caso sobre tradução automática de poucos recursos, e pesquisadores da China introduziram um modelo de detecção de sarcasmo que alcançou desempenho de ponta em um Twitter multimodal conjunto de dados.


    Artigos Recentes

    Tendências de programação de funcionários que merecem continuar mesmo depois da pandemia

    Já se passou muito tempo desde que você poderia supor que a maioria de sua equipe está nisso das 9 às 5. A...

    Qual é o futuro do RH?

    Os departamentos de recursos humanos (RH) sempre foram essenciais para o sucesso organizacional e provavelmente continuarão assim nas próximas décadas. Mas a...

    Artigos Relacionados

    DEIXE UMA RESPOSTA

    Por favor digite seu comentário!
    Por favor, digite seu nome aqui