More

    Essas fotos estranhas e perturbadoras mostram que a IA está ficando mais inteligente


    De todos os modelos de IA do mundo, o GPT-3 da OpenAI é o que mais captura a imaginação do público. Ele pode vomitar poemas, contos e canções com poucos estímulos e foi demonstrado que engana as pessoas, fazendo-as pensar que seus resultados foram escritos por um humano. Mas sua eloqüência é mais um truque de salão, não deve ser confundida com inteligência real.

    No entanto, os pesquisadores acreditam que as técnicas usadas para criar GPT-3 podem conter o segredo para uma IA mais avançada. GPT-3 treinou em uma enorme quantidade de dados de texto. E se os mesmos métodos fossem treinados em texto e imagens?

    Agora, uma nova pesquisa do Instituto Allen de Inteligência Artificial, AI2, levou essa ideia para o próximo nível. Os pesquisadores desenvolveram um novo modelo de texto e imagem, também conhecido como modelo de linguagem visual, que pode gerar imagens com uma legenda. As imagens parecem perturbadoras e bizarras – nada como os deepfakes hiper-realistas gerados por GANs – mas podem demonstrar uma nova direção promissora para obter inteligência mais generalizável, e talvez robôs mais inteligentes também.

    Preencha o espaço em branco

    O GPT-3 faz parte de um grupo de modelos conhecido como “transformadores”, que se popularizou com o sucesso do BERT do Google. Antes do BERT, os modelos de linguagem eram muito ruins. Eles tinham poder preditivo suficiente para serem úteis em aplicativos como o preenchimento automático, mas não o suficiente para gerar uma frase longa que seguisse as regras gramaticais e o bom senso.

    BERT mudou isso introduzindo uma nova técnica chamada “mascaramento”. Envolve esconder palavras diferentes em uma frase e pedir ao modelo para preencher o espaço em branco. Por exemplo:

    • A mulher foi ao ___ para malhar.
    • Eles compraram ___ de pão para fazer sanduíches.

    A ideia é que, se o modelo for forçado a fazer esses exercícios, muitas vezes milhões de vezes, ele começará a descobrir padrões em como as palavras são reunidas em sentenças e as sentenças em parágrafos. Como resultado, pode gerar e interpretar melhor o texto, aproximando-o da compreensão do significado da linguagem. (O Google agora usa o BERT para fornecer resultados de pesquisa mais relevantes em seu mecanismo de pesquisa.) Depois que o mascaramento se mostrou altamente eficaz, os pesquisadores procuraram aplicá-lo a modelos de linguagem visual ocultando palavras em legendas, como:

    A ____ está em um solo de terra perto de uma árvore.

    AI2

    Desta vez, o modelo pode olhar para as palavras ao redor e o conteúdo da imagem para preencher o espaço em branco. Por meio de milhões de repetições, ele poderia descobrir não apenas os padrões entre as palavras, mas também as relações entre as palavras e os elementos em cada imagem.

    O resultado são modelos que são capazes de relacionar descrições de texto a referências visuais – assim como os bebês podem fazer conexões entre as palavras que aprendem e as coisas que vêem. As modelos podem olhar para a foto abaixo, por exemplo, e escrever uma legenda adequada como “Mulheres jogando hóquei em campo”. Ou podem responder a perguntas como “Qual é a cor da bola?” conectando a palavra “bola” com o objeto circular na imagem.

    Mulheres jogando hóquei em campo
    Um modelo de linguagem visual seria capaz de legendar esta foto de maneira sensata: “Mulheres jogando hóquei em campo”.

    JOHN TORCASIO / UNSPLASH

    Uma imagem vale mais que mil palavras

    Mas os pesquisadores do AI2 queriam saber se esses modelos realmente desenvolveram uma compreensão conceitual do mundo visual. Uma criança que aprendeu a palavra para um objeto pode não apenas conjurar a palavra para identificar o objeto, mas também desenhar o objeto quando solicitado com a palavra, mesmo se o próprio objeto não estiver presente. Assim, os pesquisadores pediram aos modelos que fizessem o mesmo: gerassem imagens a partir das legendas. Todos eles cuspiram padrões de pixels sem sentido em vez disso.

    Uma confusa malha de pixels.
    É um passaro! É um avião! Não, é apenas gobbledygook gerado por IA.

    AI2

    Faz sentido: transformar texto em imagens é muito mais difícil do que o contrário. Uma legenda não especifica tudo o que está contido em uma imagem, diz Ani Kembhavi, que lidera a equipe de visão computacional da AI2. Portanto, um modelo precisa se basear em muito bom senso sobre o mundo para preencher os detalhes.

    Se for pedido para desenhar “uma girafa caminhando em uma estrada”, por exemplo, ele também precisa inferir que a estrada tem mais probabilidade de ser cinza do que rosa choque e mais probabilidade de estar próxima a um campo de grama do que ao lado do oceano – embora nenhuma dessas informações seja explicitada.

    Portanto, Kembhavi e seus colegas Jaemin Cho, Jiasen Lu e Hannaneh Hajishirzi decidiram ver se poderiam ensinar a um modelo todo esse conhecimento visual implícito aprimorando sua abordagem de mascaramento. Em vez de treinar o modelo apenas para prever palavras mascaradas nas legendas das fotos correspondentes, eles também o treinaram para prever pixels mascarados nas fotos com base em suas legendas correspondentes.

    As imagens finais geradas pelo modelo não são exatamente realistas. Mas esse não é o ponto. Eles contêm os conceitos visuais de alto nível corretos – o equivalente em IA de uma criança desenhando uma figura de palito para representar um humano. (Você pode experimentar o modelo aqui.)

    Vários resultados gerados pelo modelo do AI2 que parecem estranhos e bizarros, mas ainda comunicam os conceitos visuais de alto nível de suas respectivas legendas.
    Exemplos de imagens geradas pelo modelo da AI2 a partir das legendas abaixo delas.

    AI2

    A capacidade dos modelos de linguagem visual de gerar esse tipo de geração de imagens representa um passo importante na pesquisa de IA. Isso sugere que o modelo é realmente capaz de um certo nível de abstração, uma habilidade fundamental para entender o mundo.

    A longo prazo, isso pode ter implicações para a robótica. Quanto melhor um robô compreender seus arredores visuais e usar a linguagem para se comunicar sobre eles, mais complexas serão as tarefas que ele será capaz de realizar. No curto prazo, esse tipo de visualização também pode ajudar os pesquisadores a entender melhor exatamente o que os modelos de IA de “caixa preta” estão aprendendo, diz Hajishirzi.

    Seguindo em frente, a equipe planeja experimentar mais para melhorar a qualidade da geração de imagem e expandir o vocabulário visual e linguístico do modelo para incluir mais tópicos, objetos e adjetivos.

    “A geração de imagens realmente era uma peça que faltava no quebra-cabeça”, diz Lu. “Ao permitir isso, podemos fazer o modelo aprender melhores representações para representar o mundo.”


    Artigos Recentes

    O ex-executivo da EA Peter Moore retorna aos jogos como vice-presidente sênior de esportes e entretenimento ao vivo da Unity

    Peter Moore deixou sua marca nos videogames como um dos chefes da Electronic Arts, Microsoft Xbox e Sega of America....

    Rival Peak reality show interativo atinge 22 milhões de visualizações

    O reality show interativo semelhante a um jogo Pico Rival se tornou um sucesso no Facebook, com mais de 22 milhões de visualizações...

    Primeiros passos de Biden como presidente: Ação contra a cobiça e o clima

    Uma enxurrada de ordens executivas deve ocorrer nos próximos dias, do novo presidente dos Estados Unidos, quando ele passar a residir na Casa...

    Brave navegador da web adiciona suporte nativo para protocolo IPFS ponto a ponto

    A comunidade descentralizada de tecnologia tem como objetivo encontrar suporte para tecnologias que vão além do suporte à criptomoeda. Em uma postagem de blog...

    Uma analogia de tipos de aplicativos móveis e qual é a mais adequada para sua empresa

    Aplicativos ou aplicativos tornaram-se parte de nossas vidas diárias na última década. Aplicativos são programas ou softwares executados (geralmente) em dispositivos inteligentes...

    Artigos Relacionados

    DEIXE UMA RESPOSTA

    Por favor digite seu comentário!
    Por favor, digite seu nome aqui