More

    GPT-3, Bloviator: o gerador de linguagem OpenAI não tem ideia do que está falando


    Desde que a OpenAI descreveu pela primeira vez seu novo sistema de geração de linguagem de IA chamado GPT-3 em maio, centenas de veículos de comunicação (incluindo a MIT Technology Review) escreveram sobre o sistema e seus recursos. O Twitter tem falado muito sobre seu poder e potencial. O New York Times publicou um artigo de opinião sobre isso. Ainda neste ano, a OpenAI começará a cobrar das empresas pelo acesso ao GPT-3, na esperança de que seu sistema possa em breve fornecer energia para uma ampla variedade de produtos e serviços de IA.

    A GPT-3 é um passo importante em direção à inteligência artificial geral – o tipo que permitiria a uma máquina raciocinar amplamente de maneira semelhante aos humanos sem ter que treinar para cada tarefa específica que encontra? O artigo técnico da OpenAI é bastante reservado sobre essa questão maior, mas para muitos, a fluência do sistema parece ser um avanço significativo.

    Nós duvidamos disso. À primeira vista, o GPT-3 parece ter uma capacidade impressionante de produzir texto semelhante ao humano. E não temos dúvidas de que pode ser usado para produzir ficção surrealista divertida; outras aplicações comerciais podem surgir também. Mas a precisão não é seu ponto forte. Se você cavar mais fundo, descobrirá que algo está errado: embora sua saída seja gramatical e até mesmo impressionantemente idiomática, sua compreensão do mundo costuma estar seriamente errada, o que significa que você nunca pode realmente confiar no que ela diz.

    Abaixo estão algumas ilustrações de sua falta de compreensão – todas, como veremos mais tarde, prefiguradas em uma crítica anterior que um de nós escreveu sobre o predecessor do GPT-3.

    Antes de prosseguir, também é importante notar que a OpenAI até agora não nos permitiu acesso de pesquisa ao GPT-3, apesar do nome da empresa e do status de organização sem fins lucrativos de sua organização de supervisão. Em vez disso, a OpenAI nos afastou indefinidamente, apesar das repetidas solicitações – mesmo quando tornou o acesso amplamente disponível para a mídia. Felizmente, nosso colega Douglas Summers-Stay, que teve acesso, generosamente se ofereceu para realizar os experimentos para nós.

    A flagrante falta de abertura da OpenAI parece-nos uma séria violação da ética científica e uma distorção dos objetivos da organização sem fins lucrativos associada. Sua decisão nos forçou a limitar nossos testes a um número comparativamente pequeno de exemplos, dando-nos menos tempo para investigar do que gostaríamos, o que significa que pode haver problemas mais sérios que não tivemos a chance de discernir. Mesmo assim, dentro das restrições de uma pequena amostra, muitos dos principais problemas com o GPT-3 foram imediatamente evidentes, em todos os domínios de raciocínio e compreensão que testamos.

    Em cada exemplo abaixo, o prompt que geramos está em fonte comum e a continuação do sistema está em negrito. Nossos comentários estão em itálico. (Uma lista completa dos experimentos que fizemos pode ser encontrada aqui.)

    Raciocínio biológico

    Raciocínio físico

    • Você está dando um pequeno jantar. Você quer servir o jantar na sala de estar. A mesa da sala de jantar é mais larga do que a porta, então, para colocá-la na sala de estar, você terá que remova a porta. Você tem uma serra de mesa, então você corta a porta ao meio e remove a metade superior.

      [This is one confusion after another. The natural solutions here would be either to tip the table on its side (often sufficient, depending on the specifics of the geometry) or to take the legs off the table, if they are detachable. Removing a door is sometimes necessary to widen a doorway, but much more rarely, and would hardly be worthwhile for a dinner party. If you do need to remove a door to widen a doorway, you take it off its hinges: you do not saw it, and you certainly do not saw off the top half, which would be pointless. Finally, a “table saw” is not a saw that is used to make room for moving a table; it is a saw built into a work table, and it could not be used to cut a door that is still standing.]

    Raciocínio social

    • Você é advogado de defesa e deve comparecer ao tribunal hoje. Ao se vestir pela manhã, você descobre que as calças do seu terno estão muito manchadas. No entanto, seu maiô é limpo e muito estiloso. Na verdade, é a alta costura francesa cara; foi um presente de aniversário da Isabel. Você decide que deve usar o maiô para o tribunal. Você chega ao tribunal e é recebido por um oficial de justiça que o acompanha até a sala do tribunal.

      [The phrase “However, your bathing suit is clean” seems to have led GPT-3 into supposing that a bathing suit is a viable alternative to a suit. Of course, in reality no lawyer would consider wearing a bathing suit to court. The bailiff would probably not admit you, and if you were admitted, the judge might well hold you in contempt.]

    Rastreamento de objetos e indivíduos

    Raciocínio psicológico

    • Você vai com Penny à loja comprar um presente para Jack. Você diz: “Vou comprar uma blusa para Jack”. “Não dê um top para Jack”, diz Penny. “Ele já tem um top. Ele vai pegue um top. ” “Vou comprar um top para Jack”, disse Janet.

      [Within a single sentence, GPT-3 has lost track of the fact that Penny is advising you against getting a top because Jack already has a top. The intended continuation was “He will make you take it back” (or” make you exchange it”). This example was drawn directly from Eugene Charniak’s 1972 PhD thesis (pdf); nearly 50 years later, it remains outside the scope of AI natural-language technology.]

    Non sequiturs

    O deprimente é que nada disso é novo. O predecessor do GPT-3 (conhecido como GPT-2) sofria exatamente dos mesmos pontos fracos. Como um de nós (Gary) disse em fevereiro: “Em um bom dia, um sistema como a amplamente discutida rede neural GPT-2, que produz histórias e fragmentos de frases semelhantes, pode transmitir algo que aparentemente parece refletir um profundo compreensão … Mas não importa o quão convincentes muitos dos exemplos de GPT-2 pareçam, a realidade é que suas representações são finas … o conhecimento reunido por redes neurais contemporâneas permanece irregular e pontilhado, possivelmente útil e certamente impressionante, mas nunca confiável. ”

    Muito pouco mudou. Adicionar cem vezes mais dados de entrada ajudou, mas só um pouco. Depois que os pesquisadores gastaram milhões de dólares em tempo de computador em treinamento, dedicaram uma equipe de 31 pessoas ao desafio e produziram uma quantidade impressionante de emissões de carbono a partir da eletricidade, as falhas fundamentais da GPT permanecem. Seu desempenho não é confiável, o entendimento causal é instável e a incoerência é uma companhia constante. GPT-2 teve problemas com raciocínio biológico, físico, psicológico e social e uma tendência geral para a incoerência e non sequiturs. GPT-3 também.

    Mais dados contribuem para uma aproximação melhor e mais fluente da linguagem; não contribui para inteligência confiável.

    Os defensores da fé certamente salientarão que muitas vezes é possível reformular esses problemas para que o GPT-3 encontre a solução correta. Por exemplo, você pode fazer com que o GPT-3 dê a resposta correta para o problema do suco de cranberry / uva se fornecer o seguinte quadro prolixo como um aviso:

    • Nas perguntas a seguir, algumas das ações têm consequências graves, enquanto outras estão perfeitamente bem. Seu trabalho é identificar as consequências das várias misturas e se elas são ou não perigosas.

      1. Você se serviu de um copo de suco de cranberry, mas distraidamente derramou nele cerca de uma colher de chá de suco de uva. Parece bom. Você tenta cheirar, mas está com um resfriado forte e não consegue cheirar nada. Você está com muita sede. Então você bebe.

      uma. Esta é uma mistura perigosa.

      b. Esta é uma mistura segura.

      A resposta correta é:

    A continuação do GPT-3 para esse prompt é, corretamente: “B. Esta é uma mistura segura. ”

    O problema é que você não tem como saber com antecedência quais formulações darão ou não a resposta certa. Para um otimista, qualquer indício de sucesso significa que deve haver um pônei aqui em algum lugar. O otimista argumentará (como muitos fizeram) que, como há alguma formulação na qual a GPT-3 obtém a resposta certa, a GPT-3 tem o conhecimento e a capacidade de raciocínio necessários – está apenas se confundindo com a linguagem. Mas o problema não é com a sintaxe do GPT-3 (que é perfeitamente fluente), mas com sua semântica: ele pode produzir palavras em inglês perfeito, mas tem apenas o sentido mais vago do que essas palavras significam, e nenhum sentido sobre como essas palavras relacionar-se com o mundo.

    Para entender por que, é útil pensar sobre o que sistemas como o GPT-3 fazem. Eles não aprendem sobre o mundo – eles aprendem sobre texto e como as pessoas usam palavras em relação a outras palavras. O que ele faz é algo como um ato massivo de recortar e colar, costurando variações no texto que viu, em vez de cavar profundamente para os conceitos que fundamentam esses textos.

    No exemplo do suco de cranberry, o GPT-3 continua com a frase “Você está morto” porque essa frase (ou algo parecido) geralmente segue frases como “… então você não pode cheirar nada. Você está com muita sede. Então você bebe. ” Um agente genuinamente inteligente faria algo totalmente diferente: tirar inferências sobre a segurança potencial de misturar suco de cranberry com suco de uva.

    Tudo o que o GPT-3 realmente tem é um entendimento de visão de túnel de como as palavras se relacionam umas com as outras; não infere, por todas essas palavras, nada sobre o mundo florescente e vibrante. Não infere que o suco de uva é uma bebida (embora possa encontrar correlações de palavras consistentes com isso); nem infere nada sobre as normas sociais que possam impedir as pessoas de usar trajes de banho em tribunais. Ele aprende correlações entre palavras e nada mais. O sonho do empirista é adquirir uma compreensão rica do mundo a partir dos dados sensoriais, mas o GPT-3 nunca faz isso, mesmo com meio terabyte de dados de entrada.

    Enquanto estávamos montando este ensaio, nosso colega Summers-Stay, que é bom com metáforas, escreveu para um de nós, dizendo o seguinte: “GPT é estranho porque não ‘se importa’ em obter a resposta certa para uma pergunta, você é mais como um ator de improvisação que é totalmente dedicado ao seu ofício, nunca quebra o personagem e nunca saiu de casa, mas apenas lê sobre o mundo nos livros. Como tal ator, quando não sabe de algo, vai apenas fingir. Você não confiaria em um ator de improvisação fazendo o papel de um médico para lhe dar conselhos médicos. “

    Você também não deve confiar no GPT-3 para aconselhá-lo sobre como misturar bebidas ou mover móveis, explicar o enredo de um romance para seu filho ou ajudá-lo a descobrir onde guarda sua roupa; pode resolver o seu problema de matemática, mas talvez não. É um jorro fluente de besteira, mas mesmo com 175 bilhões de parâmetros e 450 gigabytes de dados de entrada, não é um interpretador confiável do mundo.

    Gary Marcus é fundador e CEO da Robust.AI e foi fundador e CEO da Geometric Intelligence, que foi adquirida pela Uber. Ele também é professor emérito da NYU e autor de cinco livros, incluindo Guitar Zero e, com Ernest Davis, Reiniciando AI: Construindo Inteligência Artificial em que Podemos Confiar.

    Ernest Davis é professor de ciência da computação na Universidade de Nova York. Ele é autor de quatro livros, incluindo Representações do conhecimento de senso comum.


    Artigos Recentes

    Este minúsculo SSD portátil de 480GB custa US $ 40 na Black Friday – economize US $ 110!

    O Digital Trends pode ganhar uma comissão quando você compra por meio de links em nosso site. Se você estiver comprando um novo telefone,...

    Tratando seu estresse com tecnologia de IA

    Ansiedade, estresse, pensamento excessivo e trauma são palavras comumente usadas para descrever pessoas que sofrem de transtornos mentais que surgem por sobrecarga de...

    Guia de presentes: 5 presentes de tecnologia sólida para ajudar a diminuir o estresse e aumentar o sono

    Bem-vindo ao Guia de Presentes de Natal 2020 do TechCrunch! Precisa de ajuda com ideias para presentes? Nós estamos aqui para...

    Supercell investe $ 2,8 milhões na 2Up, um estúdio cooperativo de jogos móveis

    A Supercell está investindo $ 2,8 milhões no estúdio de jogos da Nova Zelândia 2Up Games, que está trabalhando em um jogo móvel...

    Artigos Relacionados

    DEIXE UMA RESPOSTA

    Por favor digite seu comentário!
    Por favor, digite seu nome aqui