Resolvendo uma máquina

As imagens para download no site do escritório de notícias do MIT são disponibilizadas para entidades não comerciais, imprensa e público em geral sob uma licença Creative Commons Attribution Non-Commercial No Derivatives. Você não pode alterar as imagens fornecidas, exceto cortá-las no tamanho. Uma linha de crédito deve ser utilizada na reprodução das imagens; se não houver um abaixo, credite as imagens ao "MIT".

imagem anterior imagem seguinte

Grandes modelos de linguagem como o GPT-3 da OpenAI são redes neurais massivas que podem gerar texto semelhante ao humano, da poesia ao código de programação. Treinados usando dados da Internet, esses modelos de aprendizado de máquina pegam um pouco do texto de entrada e preveem o texto que provavelmente virá a seguir.

Mas isso não é tudo que esses modelos podem fazer. Os pesquisadores estão explorando um fenômeno curioso conhecido como aprendizado no contexto, no qual um grande modelo de linguagem aprende a realizar uma tarefa depois de ver apenas alguns exemplos – apesar de não ter sido treinado para essa tarefa. Por exemplo, alguém pode alimentar o modelo com várias sentenças de exemplo e seus sentimentos (positivos ou negativos), então solicitar uma nova sentença, e o modelo pode fornecer o sentimento correto.

Normalmente, um modelo de aprendizado de máquina como o GPT-3 precisaria ser treinado novamente com novos dados para essa nova tarefa. Durante esse processo de treinamento, o modelo atualiza seus parâmetros à medida que processa novas informações para aprender a tarefa. Mas com o aprendizado no contexto, os parâmetros do modelo não são atualizados, então parece que o modelo aprende uma nova tarefa sem aprender nada.

Cientistas do MIT, Google Research e Stanford University estão se esforçando para desvendar esse mistério. Eles estudaram modelos muito semelhantes a grandes modelos de linguagem para ver como eles podem aprender sem atualizar os parâmetros.

Os resultados teóricos dos pesquisadores mostram que esses modelos massivos de redes neurais são capazes de conter modelos lineares menores e mais simples enterrados dentro deles. O modelo grande poderia então implementar um algoritmo de aprendizado simples para treinar esse modelo linear menor para concluir uma nova tarefa, usando apenas as informações já contidas no modelo maior. Seus parâmetros permanecem fixos.

Um passo importante para entender os mecanismos por trás do aprendizado no contexto, esta pesquisa abre as portas para mais exploração em torno dos algoritmos de aprendizado que esses grandes modelos podem implementar, diz Ekin Akyürek, estudante de graduação em ciência da computação e principal autor de um artigo que explora esse fenômeno. Com uma melhor compreensão do aprendizado no contexto, os pesquisadores poderiam permitir que os modelos concluíssem novas tarefas sem a necessidade de um novo treinamento dispendioso.

"Normalmente, se você deseja ajustar esses modelos, precisa coletar dados específicos do domínio e fazer uma engenharia complexa. Mas agora podemos apenas alimentá-lo com uma entrada, cinco exemplos, e ele realiza o que queremos. Então, em -a aprendizagem contextual é um fenômeno de aprendizagem excessivamente eficiente que precisa ser entendido", diz Akyürek.

Juntando-se a Akyürek no papel estão Dale Schuurmans, cientista pesquisador do Google Brain e professor de ciência da computação na Universidade de Alberta; assim como os autores seniores Jacob Andreas, professor assistente do X Consortium no Departamento de Engenharia Elétrica e Ciência da Computação do MIT e membro do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL); Tengyu Ma, professor assistente de ciência da computação e estatística em Stanford; e Danny Zhou, principal cientista e diretor de pesquisa do Google Brain. A pesquisa será apresentada na Conferência Internacional sobre Representações de Aprendizagem.

Um modelo dentro de um modelo

Na comunidade de pesquisa de aprendizado de máquina, muitos cientistas passaram a acreditar que grandes modelos de linguagem podem realizar aprendizado no contexto devido à forma como são treinados, diz Akyürek.

Por exemplo, o GPT-3 tem centenas de bilhões de parâmetros e foi treinado lendo grandes trechos de texto na internet, desde artigos da Wikipédia até postagens do Reddit. Portanto, quando alguém mostra os exemplos de modelo de uma nova tarefa, provavelmente já viu algo muito semelhante porque seu conjunto de dados de treinamento incluía textos de bilhões de sites. Ele repete padrões vistos durante o treinamento, em vez de aprender a realizar novas tarefas.

blog