Aprendendo a crescer máquina

As imagens para download no site do escritório de notícias do MIT são disponibilizadas para entidades não comerciais, imprensa e público em geral sob uma licença Creative Commons Attribution Non-Commercial No Derivatives. Você não pode alterar as imagens fornecidas, exceto cortá-las no tamanho. Uma linha de crédito deve ser utilizada na reprodução das imagens; se não houver um abaixo, credite as imagens ao "MIT".

imagem anterior imagem seguinte

Não é nenhum segredo que o ChatGPT da OpenAI tem alguns recursos incríveis - por exemplo, o chatbot pode escrever poesia que se assemelha a sonetos de Shakespeare ou depurar código para um programa de computador. Essas habilidades são possibilitadas pelo enorme modelo de aprendizado de máquina no qual o ChatGPT é construído. Os pesquisadores descobriram que, quando esses tipos de modelos se tornam grandes o suficiente, surgem capacidades extraordinárias.

Mas modelos maiores também exigem mais tempo e dinheiro para treinar. O processo de treinamento envolve mostrar centenas de bilhões de exemplos para um modelo. Reunir tantos dados é um processo complicado em si. Depois vêm os custos monetários e ambientais de operar muitos computadores poderosos por dias ou semanas para treinar um modelo que pode ter bilhões de parâmetros.

"Estima-se que os modelos de treinamento na escala em que o ChatGPT é suposto ser executado podem custar milhões de dólares, apenas para uma única execução de treinamento. Podemos melhorar a eficiência desses métodos de treinamento, para que ainda possamos obter bons modelos em menos tempo e por menos dinheiro? Propomos fazer isso aproveitando modelos de linguagem menores que foram previamente treinados", diz Yoon Kim, professor assistente do Departamento de Engenharia Elétrica e Ciência da Computação do MIT e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL).

Em vez de descartar uma versão anterior de um modelo, Kim e seus colaboradores a utilizam como base para a construção de um novo modelo. Usando aprendizado de máquina, seu método aprende a "desenvolver" um modelo maior a partir de um modelo menor de uma forma que codifica o conhecimento que o modelo menor já adquiriu. Isso permite um treinamento mais rápido do modelo maior.

Sua técnica economiza cerca de 50% do custo computacional necessário para treinar um modelo grande, em comparação com métodos que treinam um novo modelo do zero. Além disso, os modelos treinados com o método MIT tiveram um desempenho tão bom ou melhor do que os modelos treinados com outras técnicas que também usam modelos menores para permitir um treinamento mais rápido de modelos maiores.

Reduzir o tempo necessário para treinar modelos enormes pode ajudar os pesquisadores a fazer avanços mais rápidos com menos despesas, além de reduzir as emissões de carbono geradas durante o processo de treinamento. Também poderia permitir que grupos de pesquisa menores trabalhassem com esses modelos massivos, potencialmente abrindo as portas para muitos novos avanços.

"À medida que procuramos democratizar esses tipos de tecnologias, tornar o treinamento mais rápido e barato se tornará mais importante", diz Kim, autor sênior de um artigo sobre essa técnica.

Kim e seu aluno de pós-graduação Lucas Torroba Hennigen escreveram o artigo com o principal autor Peihao Wang, aluno de pós-graduação da Universidade do Texas em Austin, bem como outros do MIT-IBM Watson AI Lab e da Columbia University. A pesquisa será apresentada na Conferência Internacional sobre Representações de Aprendizagem.

Quanto maior melhor

Grandes modelos de linguagem como o GPT-3, que está no centro do ChatGPT, são construídos usando uma arquitetura de rede neural chamada transformador. Uma rede neural, vagamente baseada no cérebro humano, é composta de camadas de nós interconectados, ou "neurônios". Cada neurônio contém parâmetros, que são variáveis aprendidas durante o processo de treinamento que o neurônio usa para processar dados.

As arquiteturas de transformadores são únicas porque, à medida que esses tipos de modelos de rede neural aumentam, eles alcançam resultados muito melhores.

Notícias