More

    Esta poltrona de abacate pode ser o futuro da IA


    Apesar de todo o talento do GPT-3, sua saída pode parecer livre da realidade, como se ele não soubesse do que está falando. É porque não funciona. Ao basear texto em imagens, os pesquisadores da OpenAI e de outros lugares estão tentando dar aos modelos de linguagem uma melhor compreensão dos conceitos cotidianos que os humanos usam para dar sentido às coisas.

    O DALL · E e o CLIP resolvem esse problema de diferentes direções. À primeira vista, CLIP (Contrastive Language-Image Pre-training) é mais um sistema de reconhecimento de imagem. Exceto que aprendeu a reconhecer imagens não de exemplos rotulados em conjuntos de dados selecionados, como a maioria dos modelos existentes, mas de imagens e suas legendas retiradas da Internet. Ele aprende o que está em uma imagem a partir de uma descrição, em vez de um rótulo de uma palavra, como “gato” ou “banana”.

    O CLIP é treinado para prever qual legenda de uma seleção aleatória de 32.768 é a correta para uma determinada imagem. Para resolver isso, o CLIP aprende a vincular uma grande variedade de objetos com seus nomes e as palavras que os descrevem. Isso permite que ele identifique objetos em imagens fora de seu conjunto de treinamento. A maioria dos sistemas de reconhecimento de imagem são treinados para identificar certos tipos de objetos, como rostos em vídeos de vigilância ou edifícios em imagens de satélite. Como o GPT-3, o CLIP pode generalizar as tarefas sem treinamento adicional. Também é menos provável do que outros modelos de reconhecimento de imagem de última geração ser desviado por exemplos adversários, que foram sutilmente alterados de maneiras que normalmente confundem algoritmos, embora os humanos possam não notar a diferença.

    Em vez de reconhecer imagens, DALL · E (que suponho ser um trocadilho WALL · E / Dali) as desenha. Este modelo é uma versão menor do GPT-3 que também foi treinado em pares de texto-imagem obtidos da Internet. Dada uma pequena legenda em linguagem natural, como “uma pintura de uma capivara sentada em um campo ao nascer do sol” ou “uma visão transversal de uma noz”, DALL · E gera muitas imagens que correspondem a ela: dezenas de capivaras de todas as formas e tamanhos na frente de fundos laranja e amarelos; fileira após fileira de nozes (embora nem todas em seção transversal).

    Seja surreal

    Os resultados são impressionantes, embora ainda sejam mistos. A legenda “um vitral com a imagem de um morango azul” produz muitos resultados corretos, mas também alguns que têm janelas azuis e morangos vermelhos. Outros não contêm nada que se pareça com uma janela ou um morango. Os resultados apresentados pela equipe OpenAI em uma postagem do blog não foram escolhidos a dedo, mas classificados pelo CLIP, que selecionou as 32 imagens DALL · E para cada legenda que considera melhor corresponder à descrição.

    “Text-to-image é um desafio de pesquisa que já existe há algum tempo”, diz Mark Riedl, que trabalha com PNL e criatividade computacional no Instituto de Tecnologia da Geórgia em Atlanta. “Mas este é um conjunto impressionante de exemplos.”

    Imagens desenhadas por DALL · E para a legenda “Um bebê rabanete em um tutu passeando com um cachorro”

    Para testar a capacidade do DALL · E de trabalhar com novos conceitos, os pesquisadores deram a ele legendas que descreviam objetos que eles pensavam que não teriam visto antes, como “uma poltrona de abacate” e “uma ilustração de um rabanete bebê em um tutu andando em um cachorro.” Em ambos os casos, a IA gerou imagens que combinaram esses conceitos de maneiras plausíveis.

    As poltronas, em particular, parecem todas cadeiras e abacates. “O que mais me surpreendeu é que o modelo pode pegar dois conceitos não relacionados e colocá-los juntos de uma forma que resulta em algo funcional”, diz Aditya Ramesh, que trabalhou no DALL · E. Isso provavelmente ocorre porque um abacate cortado ao meio se parece um pouco com uma poltrona de espaldar alto, com o caroço como uma almofada. Para outras legendas, como “um caracol feito de harpa”, os resultados são menos bons, com imagens que combinam caracóis e harpas de maneiras estranhas.

    DALL · E é o tipo de sistema que Riedl imaginou submeter ao teste Lovelace 2.0, um experimento mental que ele idealizou em 2014. O teste tem como objetivo substituir o teste de Turing como uma referência para medir a inteligência artificial. Supõe que uma marca de inteligência é a capacidade de combinar conceitos de maneiras criativas. Riedl sugere que pedir a um computador para fazer um desenho de um homem segurando um pinguim é um teste de inteligência melhor do que pedir a um chatbot para enganar um humano em uma conversa, porque é mais aberto e menos fácil de trapacear.

    “O verdadeiro teste é ver até que ponto a IA pode ser empurrada para fora de sua zona de conforto”, diz Riedl.

    Imagens desenhadas por DALL · E para a legenda “caracol feito de harpa”

    “A capacidade do modelo de gerar imagens sintéticas a partir de um texto caprichoso parece muito interessante para mim”, diz Ani Kembhavi, do Allen Institute for Artificial Intelligence (AI2), que também desenvolveu um sistema que gera imagens a partir de texto. “Os resultados parecem obedecer à semântica desejada, o que acho bastante impressionante.” Jaemin Cho, um colega de Kembhavi, também está impressionado: “Os geradores de texto para imagem existentes não mostraram esse nível de controle desenhando vários objetos ou as habilidades de raciocínio espacial de DALL · E”, diz ele.

    No entanto, DALL · E já mostra sinais de tensão. Incluir muitos objetos em uma legenda aumenta sua capacidade de controlar o que desenhar. E reformular uma legenda com palavras que significam a mesma coisa às vezes produz resultados diferentes. Também há sinais de que DALL · E está imitando imagens que encontrou online, em vez de gerar imagens novas.

    “Eu suspeito um pouco do exemplo do daikon, o que estilisticamente sugere que ele pode ter memorizado alguma arte da internet”, diz Riedl. Ele observa que uma pesquisa rápida traz muitas imagens de desenhos animados de daikons antropomorfizados. “O GPT-3, no qual o DALL · E se baseia, é famoso por memorizar”, diz ele.

    Ainda assim, a maioria dos pesquisadores de IA concorda que basear a linguagem na compreensão visual é uma boa maneira de tornar as IAs mais inteligentes.

    “O futuro consistirá em sistemas como este”, diz Sutskever. “E ambos os modelos são um passo em direção a esse sistema.”


    Artigos Recentes

    Tendências de programação de funcionários que merecem continuar mesmo depois da pandemia

    Já se passou muito tempo desde que você poderia supor que a maioria de sua equipe está nisso das 9 às 5. A...

    Qual é o futuro do RH?

    Os departamentos de recursos humanos (RH) sempre foram essenciais para o sucesso organizacional e provavelmente continuarão assim nas próximas décadas. Mas a...

    Artigos Relacionados

    DEIXE UMA RESPOSTA

    Por favor digite seu comentário!
    Por favor, digite seu nome aqui