More

    A IA ainda não está pronta para ser considerada humana em chamadas de vídeo


    Antes do domingo do Superbowl, a Amazon inundou a mídia social com anúncios provocantes provocando “O novo corpo de Alexa”. Seu comercial de gameday retrata a fantasia de uma mulher do assistente de voz de IA personificado pelo ator Michael B. Jordan, que sedutoramente atende a todos os seus caprichos – para a consternação de seu marido cada vez mais irado. Sem dúvida, a maioria dos espectadores saiu rindo da ideia implausível da nova linha de robôs de substituição de cônjuges da Amazon, mas a realidade é que a IA encarnada e humana pode estar mais perto do que você pensa.

    Hoje, os avatares de IA – ou seja, IA renderizados com um corpo e / ou rosto digital – não têm o apelo sexual de Michael B. A maioria, na verdade, é completamente assustadora. Pesquisas mostram que imbuir robôs com características humanas os torna queridos para nós – até certo ponto. Ultrapassado esse limiar, quanto mais parecido com um sistema parece, mais paradoxalmente repelidos nos sentimos. Essa repulsa tem um nome: “The Uncanny Valley”. Masahiro Mori, o roboticista que cunhou o termo, previu um pico além do Vale Estranho, onde os robôs se tornariam indistinguíveis dos humanos, nos enganando mais uma vez. Você pode imaginar que tal robô seria capaz de nos enganar dizendo que é humano em uma chamada de vídeo: uma refatoração do século XXI do antigo Teste de Turing baseado em texto.

    Recentemente, em um Zoom com o lendário comerciante Guy Kawasaki, fiz uma declaração ousada: em dois anos, Guy não seria capaz de distinguir entre mim e a IA de conversação da minha empresa, Kuki, em uma chamada de vídeo. As sobrancelhas de Guy se arquearam com a afirmação e advertências começaram a cair em cascata de minha boca grande e gorda. Talvez em uma curta videochamada. Com baixa largura de banda. Se ele estivesse bebendo champanhe e discando de um banho de espuma, como a senhora do anúncio da Alexa.

    Portanto, que este seja meu mea culpa público e uma previsão mais fundamentada. Uma IA boa o suficiente para passar por um humano em uma videochamada precisa de cinco tecnologias principais em execução em tempo real:

    1. Um avatar semelhante ao humano

    2. Uma voz humana

    3. Emoções humanas

    4. Movimento semelhante ao humano

    5. Conversação humana

    Os avatares evoluíram muito recentemente, graças à ampla e barata disponibilidade da tecnologia de captura de movimento (“MoCap”) e das redes neurais adversas geradoras (“GANs”), a técnica de aprendizado de máquina subjacente ao Deep Fakes. O MoCap, que permite aos atores criarem personagens por meio de trajes táteis e originalmente exigia o apoio de grande orçamento de filmes como Avatar, agora está acessível a qualquer pessoa com um iPhone X e um software de mecanismo de jogo gratuito. Numerosos serviços da web online tornam trivial a criação de imagens e vídeos falsos em baixa resolução, democratizando a tecnologia que, se não for controlada, pode ser um golpe de misericórdia para a democracia. Esses avanços geraram novas indústrias, de VTubers japoneses (uma tendência crescente nos EUA recentemente cooptada por PewDiePie), a falsos influenciadores de “IA” como Lil ‘Miquela, que pretendem virtualizar talentos, mas secretamente confiam em modelos humanos nos bastidores. Com o anúncio da semana passada do criador do “MetaHuman” da Epic Games (fornecedores de Fortnite e do Unreal Engine em uma indústria que em 2020 ultrapassou filmes e esportes combinados), em breve qualquer um será capaz de criar e fantoche infinitas faces falsas fotorrealistas, de graça .

    A tecnologia que permite vozes humanas também está avançando rapidamente. Amazon, Microsoft e Google oferecem APIs de text-to-speech (TTS) consumíveis em nuvem que, sustentadas por redes neurais, geram uma fala cada vez mais humana. Ferramentas para criar fontes de voz personalizadas, modeladas a partir de um ator humano usando frases de amostra gravadas, também estão prontamente disponíveis. A síntese de voz, assim como seu reconhecimento de voz de contrapartida altamente preciso, só continuará a melhorar com mais poder de computação e dados de treinamento.

    Mas uma voz e um rosto de IA convincentes não valem nada sem expressões correspondentes. A visão computacional por meio da câmera frontal tem se mostrado promissora na decifração de expressões faciais humanas, e APIs prontas para uso podem analisar o sentimento do texto. Laboratórios como o da NTT Data exibiram a imitação de gestos e expressões humanas em tempo real, e o MICA do Magic Leap provocou expressões de avatar não-verbais convincentes. No entanto, espelhar um humano é uma coisa; construir uma IA com seu próprio estado mental e emocional autônomo aparente é outro desafio.

    Para evitar o que o Dr. Ari Shapiro chama de The Uncanny Valley of Behavior, a IA deve exibir movimentos semelhantes aos humanos para corresponder ao seu “estado de espírito”, acionado de forma procedimental e dinâmica com base em como a conversa está se desenrolando. O trabalho de Shapiro no laboratório de TIC da USC foi seminal nesse campo, junto com empresas iniciantes como a Speech Graphics, cuja tecnologia possibilita sincronização labial e expressões faciais para personagens de jogos. Esses sistemas pegam a expressão textual de um avatar, analisam o sentimento e atribuem uma animação apropriada de uma biblioteca usando regras, às vezes juntamente com aprendizado de máquina treinado em vídeos de humanos reais se movendo. Com mais P&D e ML, a animação procedural pode muito bem ser perfeita em dois anos.

    A conversa humana é a peça final e mais difícil do quebra-cabeça. Embora os chatbots possam agregar valor aos negócios em domínios confinados, a maioria ainda luta para manter uma conversa básica. Aprendizado profundo + mais dados + mais poder de computação até agora não conseguiram produzir avanços significativos na compreensão da linguagem natural em relação a outros campos de IA, como síntese de fala e visão computacional.

    A ideia de IA semelhante à humana é profundamente sexy (até o momento + $ 320 milhões de dólares de risco e contando); mas, pelo menos nos próximos anos até que os componentes-chave sejam “resolvidos”, é provável que continue sendo uma fantasia. E à medida que as melhorias do avatar superam outros avanços, nossas expectativas aumentarão – mas também aumentará nossa decepção quando os rostos bonitos dos assistentes virtuais não tiverem EQ e cérebros para combinar. Portanto, é provavelmente muito cedo para especular quando um robô pode enganar um humano por meio de videochamadas, especialmente considerando que as máquinas ainda não passaram de fato no Teste de Turing tradicional baseado em texto.

    Talvez uma questão mais importante do que (quando?) Podemos criar IA humana é: devemos? As oportunidades – para personagens de mídia interativa, para companheiros de saúde em IA, para treinamento ou educação – superam os perigos? E AI humanóide significa necessariamente “capaz de passar por humano”, ou deveríamos nos esforçar, como muitos membros da indústria concordam, para que seres estilizados distintamente não humanos evitem o Vale Sobrenatural? Pessoalmente, como um geek de ficção científica ao longo da vida, sempre desejei um super parceiro de IA que fosse humano o suficiente para brincar comigo, e espero que com a regulamentação certa – começando com as leis básicas que todas as IAs se identificam como tal – esta tecnologia resultará em uma rede positiva para a humanidade. Ou, pelo menos, um doppelganger de celebridade que funciona com moedas como Michael B. para ler para você romances até que o período de avaliação gratuita do Audible expire.

    Lauren Kunze é CEO da Pandorabots, fabricante do AI Kuki conversacional.

    VentureBeat

    A missão da VentureBeat é ser uma praça da cidade digital para que os tomadores de decisões técnicas obtenham conhecimento sobre a tecnologia transformadora e façam transações. Nosso site oferece informações essenciais sobre tecnologias e estratégias de dados para guiá-lo à medida que lidera suas organizações. Convidamos você a se tornar um membro de nossa comunidade, para acessar:

    • informações atualizadas sobre os assuntos de seu interesse
    • nossas newsletters
    • conteúdo líder de pensamento fechado e acesso com desconto a nossos eventos premiados, como o Transform
    • recursos de rede e muito mais

    Torne-se um membro


    Artigos Recentes

    O presidente Biden deve se preocupar para que ninguém encontre o novo PS5 ou Xbox

    Não sei o que você pensa quando lê a palavra “microchip” ou “semicondutor”, mas penso na Guerra Fria....

    Zeta Global, empresa Martech, levanta US $ 222,5 milhões em dívidas

    A Zeta Global, empresa de tecnologia de marketing fundada por David A. Steinberg e o ex-CEO da Apple, John Sculley, está anunciando mais...

    Os hackers estão encontrando maneiras de se esconder dentro do jardim murado da Apple

    “É uma faca de dois gumes”, diz Bill Marczak, pesquisador sênior do Citizen Lab, órgão de vigilância da segurança cibernética. “Você...

    Vencedores e perdedores: Disney Plus vira estrela, enquanto WhatsApp revela seu ultimato

    Pronto para um resumo rápido das maiores histórias da semana? Descubra exatamente o que aconteceu no mundo da tecnologia com os vencedores...

    IA armada com múltiplos sentidos pode ganhar inteligência mais flexível

    No final de 2012, os cientistas de IA descobriram pela primeira vez como fazer as redes neurais "verem". Eles provaram que o...

    Artigos Relacionados

    DEIXE UMA RESPOSTA

    Por favor digite seu comentário!
    Por favor, digite seu nome aqui