More

    Essas fotos estranhas e perturbadoras mostram que a IA está ficando mais inteligente


    De todos os modelos de IA do mundo, o GPT-3 da OpenAI é o que mais captura a imaginação do público. Ele pode vomitar poemas, contos e canções com poucos estímulos e foi demonstrado que engana as pessoas, fazendo-as pensar que seus resultados foram escritos por um humano. Mas sua eloqüência é mais um truque de salão, não deve ser confundida com inteligência real.

    No entanto, os pesquisadores acreditam que as técnicas usadas para criar GPT-3 podem conter o segredo para uma IA mais avançada. GPT-3 treinou em uma enorme quantidade de dados de texto. E se os mesmos métodos fossem treinados em texto e imagens?

    Agora, uma nova pesquisa do Instituto Allen de Inteligência Artificial, AI2, levou essa ideia para o próximo nível. Os pesquisadores desenvolveram um novo modelo de texto e imagem, também conhecido como modelo de linguagem visual, que pode gerar imagens com uma legenda. As imagens parecem perturbadoras e bizarras – nada como os deepfakes hiper-realistas gerados por GANs – mas podem demonstrar uma nova direção promissora para obter inteligência mais generalizável, e talvez robôs mais inteligentes também.

    Preencha o espaço em branco

    O GPT-3 faz parte de um grupo de modelos conhecido como “transformadores”, que se popularizou com o sucesso do BERT do Google. Antes do BERT, os modelos de linguagem eram muito ruins. Eles tinham poder preditivo suficiente para serem úteis em aplicativos como o preenchimento automático, mas não o suficiente para gerar uma frase longa que seguisse as regras gramaticais e o bom senso.

    BERT mudou isso introduzindo uma nova técnica chamada “mascaramento”. Envolve esconder palavras diferentes em uma frase e pedir ao modelo para preencher o espaço em branco. Por exemplo:

    • A mulher foi ao ___ para malhar.
    • Eles compraram ___ de pão para fazer sanduíches.

    A ideia é que, se o modelo for forçado a fazer esses exercícios, muitas vezes milhões de vezes, ele começará a descobrir padrões em como as palavras são reunidas em sentenças e as sentenças em parágrafos. Como resultado, pode gerar e interpretar melhor o texto, aproximando-o da compreensão do significado da linguagem. (O Google agora usa o BERT para fornecer resultados de pesquisa mais relevantes em seu mecanismo de pesquisa.) Depois que o mascaramento se mostrou altamente eficaz, os pesquisadores procuraram aplicá-lo a modelos de linguagem visual ocultando palavras em legendas, como:

    A ____ está em um solo de terra perto de uma árvore.

    AI2

    Desta vez, o modelo pode olhar para as palavras ao redor e o conteúdo da imagem para preencher o espaço em branco. Por meio de milhões de repetições, ele poderia descobrir não apenas os padrões entre as palavras, mas também as relações entre as palavras e os elementos em cada imagem.

    O resultado são modelos que são capazes de relacionar descrições de texto a referências visuais – assim como os bebês podem fazer conexões entre as palavras que aprendem e as coisas que vêem. As modelos podem olhar para a foto abaixo, por exemplo, e escrever uma legenda adequada como “Mulheres jogando hóquei em campo”. Ou podem responder a perguntas como “Qual é a cor da bola?” conectando a palavra “bola” com o objeto circular na imagem.

    Mulheres jogando hóquei em campo
    Um modelo de linguagem visual seria capaz de legendar esta foto de maneira sensata: “Mulheres jogando hóquei em campo”.

    JOHN TORCASIO / UNSPLASH

    Uma imagem vale mais que mil palavras

    Mas os pesquisadores do AI2 queriam saber se esses modelos realmente desenvolveram uma compreensão conceitual do mundo visual. Uma criança que aprendeu a palavra para um objeto pode não apenas conjurar a palavra para identificar o objeto, mas também desenhar o objeto quando solicitado com a palavra, mesmo se o próprio objeto não estiver presente. Assim, os pesquisadores pediram aos modelos que fizessem o mesmo: gerassem imagens a partir das legendas. Todos eles cuspiram padrões de pixels sem sentido em vez disso.

    Uma confusa malha de pixels.
    É um passaro! É um avião! Não, é apenas gobbledygook gerado por IA.

    AI2

    Faz sentido: transformar texto em imagens é muito mais difícil do que o contrário. Uma legenda não especifica tudo o que está contido em uma imagem, diz Ani Kembhavi, que lidera a equipe de visão computacional da AI2. Portanto, um modelo precisa se basear em muito bom senso sobre o mundo para preencher os detalhes.

    Se for pedido para desenhar “uma girafa caminhando em uma estrada”, por exemplo, ele também precisa inferir que a estrada tem mais probabilidade de ser cinza do que rosa choque e mais probabilidade de estar próxima a um campo de grama do que ao lado do oceano – embora nenhuma dessas informações seja explicitada.

    Portanto, Kembhavi e seus colegas Jaemin Cho, Jiasen Lu e Hannaneh Hajishirzi decidiram ver se poderiam ensinar a um modelo todo esse conhecimento visual implícito aprimorando sua abordagem de mascaramento. Em vez de treinar o modelo apenas para prever palavras mascaradas nas legendas das fotos correspondentes, eles também o treinaram para prever pixels mascarados nas fotos com base em suas legendas correspondentes.

    As imagens finais geradas pelo modelo não são exatamente realistas. Mas esse não é o ponto. Eles contêm os conceitos visuais de alto nível corretos – o equivalente em IA de uma criança desenhando uma figura de palito para representar um humano. (Você pode experimentar o modelo aqui.)

    Vários resultados gerados pelo modelo do AI2 que parecem estranhos e bizarros, mas ainda comunicam os conceitos visuais de alto nível de suas respectivas legendas.
    Exemplos de imagens geradas pelo modelo da AI2 a partir das legendas abaixo delas.

    AI2

    A capacidade dos modelos de linguagem visual de gerar esse tipo de geração de imagens representa um passo importante na pesquisa de IA. Isso sugere que o modelo é realmente capaz de um certo nível de abstração, uma habilidade fundamental para entender o mundo.

    A longo prazo, isso pode ter implicações para a robótica. Quanto melhor um robô compreender seus arredores visuais e usar a linguagem para se comunicar sobre eles, mais complexas serão as tarefas que ele será capaz de realizar. No curto prazo, esse tipo de visualização também pode ajudar os pesquisadores a entender melhor exatamente o que os modelos de IA de “caixa preta” estão aprendendo, diz Hajishirzi.

    Seguindo em frente, a equipe planeja experimentar mais para melhorar a qualidade da geração de imagem e expandir o vocabulário visual e linguístico do modelo para incluir mais tópicos, objetos e adjetivos.

    “A geração de imagens realmente era uma peça que faltava no quebra-cabeça”, diz Lu. “Ao permitir isso, podemos fazer o modelo aprender melhores representações para representar o mundo.”


    Artigos Recentes

    A gigante de logística e aluguel de caminhões Ryder se junta às empresas dando o salto para o capital de risco em 2020

    Embora o lançamento de um fundo de capital de risco de US $ 50 milhões pela empresa de transporte, logística e aluguel de...

    Guia do desafio da quarta temporada da quarta semana, da semana 10: como andar 20.000 metros em um veículo

    É uma nova semana, o que significa que há um novo conjunto de Quinze dias desafios a enfrentar. Para a temporada 4,...

    Fog Computing e seu papel na Internet das coisas

    A computação de névoa se refere a uma estrutura de computação descentralizada. Os recursos, incluindo os dados e aplicativos, são colocados em...

    Como escolher um aspirador de robô

    Um aspirador de pó robô pode tornar sua vida muito mais fácil. Diga adeus ao passar horas limpando sua casa e olá...

    Far Cry 6 é o mais recente jogo de grande sucesso a ser adiado

    Não foi uma boa semana para os fãs de videogames de mundo aberto. Primeiro, o Cyberpunk 2077 foi adiado mais uma vez...

    Artigos Relacionados

    DEIXE UMA RESPOSTA

    Por favor digite seu comentário!
    Por favor, digite seu nome aqui