Mark Stevenson, Universidade de Sheffield
A chegada de sistemas de IA chamados modelos de linguagem avançados (LLMs), como o ChatGPT da OpenAI, foi anunciada como o início de uma nova era tecnológica. Eles podem, de fato, ter impactos significativos sobre como vivemos e trabalhamos no futuro.
No entanto, eles não surgiram do nada e têm uma história muito mais longa do que a maioria das pessoas imagina. Na verdade, a maioria de nós já utiliza as abordagens nas quais eles se baseiam há anos em tecnologias existentes.
LLMs são um tipo específico de modelo de linguagem que representa matematicamente a linguagem com base em probabilidades. Se você já usou texto preditivo em um celular ou perguntou algo a um assistente virtual, provavelmente já utilizou um modelo de linguagem. Mas o que eles realmente fazem e o que é necessário para criar um?
Os modelos de linguagem são projetados para estimar a probabilidade de aparecer uma sequência específica de palavras. É aí que entram as probabilidades. Por exemplo, um bom modelo de linguagem para inglês atribuiria uma alta probabilidade a uma frase bem formada como “the old black cat slept soundly” e uma baixa probabilidade a uma sequência aleatória como “library a or the quantum some”.
A maioria dos modelos de linguagem também pode reverter esse processo para gerar textos plausíveis. O texto preditivo do seu smartphone usa modelos de linguagem para antecipar como você pode querer completar o texto enquanto digita.
O método mais antigo para criar modelos de linguagem foi descrito em 1951 por Claude Shannon, um pesquisador da IBM. Sua abordagem era baseada em sequências de palavras conhecidas como n-grams – como “old black” ou “cat slept soundly”. A probabilidade de n-grams ocorrerem no texto era estimada ao buscar exemplos em documentos existentes. Essas probabilidades eram então combinadas para calcular a probabilidade geral de sequências maiores, como sentenças completas.
Estimar probabilidades para n-grams torna-se mais difícil à medida que o n-gram fica maior, tornando mais difícil estimar probabilidades precisas para 4-grams (sequências de quatro palavras) do que para bi-grams (sequências de duas palavras). Por isso, os modelos de linguagem antigos geralmente eram baseados em n-grams curtos.
No entanto, isso fazia com que eles muitas vezes tivessem dificuldade em representar conexões entre palavras distantes no texto. Isso podia resultar em frases com início e fim desconexos quando o modelo era usado para gerar sentenças.
Para evitar esse problema, pesquisadores criaram modelos de linguagem baseados em redes neurais – sistemas de IA inspirados no funcionamento do cérebro humano. Esses modelos conseguem representar conexões entre palavras que podem estar distantes. As redes neurais dependem de inúmeros valores numéricos (chamados parâmetros) para compreender essas conexões. Esses parâmetros precisam ser ajustados corretamente para que o modelo funcione bem.
A rede neural aprende os valores adequados para esses parâmetros ao analisar um grande número de documentos, de forma semelhante à forma como modelos baseados em n-grams aprendem probabilidades. Durante o processo de “treinamento”, a rede neural analisa os documentos de treinamento e aprende a prever a próxima palavra com base nas anteriores.
Embora eficazes, esses modelos têm desvantagens. Apesar de, teoricamente, a rede neural conseguir representar conexões entre palavras distantes, na prática, é dada maior importância às palavras próximas.
O surgimento dos transformers
Um novo tipo de rede neural, chamado transformer, foi introduzido em 2017 e resolveu esses problemas ao processar todas as palavras da entrada ao mesmo tempo. Isso possibilitou que o treinamento fosse realizado em paralelo, distribuindo os cálculos por vários computadores simultaneamente.
Esse avanço permitiu treinar transformers com muito mais documentos do que era possível anteriormente, criando modelos de linguagem maiores.
Transformers também aprendem com exemplos de texto, mas podem ser treinados para resolver uma gama maior de problemas além de prever a próxima palavra. Um exemplo é o problema de “preencher as lacunas”, onde palavras são removidas do texto de treinamento e o modelo precisa adivinhar quais palavras estão faltando.
Outra tarefa é decidir se uma segunda frase deve seguir a primeira. Esse tipo de treinamento tornou os transformers mais flexíveis e poderosos do que os modelos anteriores.
O uso de transformers permitiu o desenvolvimento dos modelos de linguagem modernos. Eles são chamados de “grandes” em parte porque são treinados com muito mais exemplos de texto do que os modelos anteriores.
Alguns desses modelos de IA são treinados com mais de um trilhão de palavras. Um adulto levaria mais de 7.600 anos para ler tudo. Eles também são baseados em redes neurais muito grandes, algumas com mais de 100 bilhões de parâmetros.
Nos últimos anos, um componente extra foi adicionado aos modelos de linguagem que permite interagir com eles usando prompts. Esses prompts podem ser perguntas ou instruções.
Isso possibilitou o desenvolvimento de sistemas de IA generativa, como ChatGPT, Gemini do Google e Llama da Meta. Os modelos aprendem a responder aos prompts usando um processo chamado aprendizado por reforço, semelhante à forma como computadores aprendem a jogar xadrez.
Os humanos fornecem prompts ao modelo de linguagem, e o feedback humano sobre as respostas da IA é usado para orientar os resultados futuros do modelo. Gerar todas essas perguntas e avaliar as respostas exige muito esforço humano, o que pode ser caro.
Uma forma de reduzir esse custo é criar exemplos usando um modelo de linguagem para simular a interação humano-IA. Esse feedback gerado pela IA é então usado para treinar o sistema.
Ainda assim, criar um modelo de linguagem grande é um empreendimento caro. O custo de treinamento de alguns modelos recentes foi estimado em centenas de milhões de dólares. Há também o custo ambiental, com emissões de dióxido de carbono equivalentes a múltiplos voos transatlânticos.
Esses são desafios que precisaremos resolver em meio a uma revolução da IA que, por enquanto, não mostra sinais de desaceleração.
Mark Stevenson, Professor Sênior, Universidade de Sheffield
Este artigo é republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.