O desempenho da GPU NVIDIA H100 supera os benchmarks de aprendizado de máquina para treinamento de modelos

nvidia

A GPU NVIDIA Hopper H100 Tensor Core fez sua primeira aparição em benchmarking no início deste ano no MLPerf Inference 2.1. Ninguém ficou surpreso com o fato de o H100 e seu antecessor, o A100, dominarem todas as cargas de trabalho de inferência. O H100 estabeleceu recordes mundiais em todos eles e a NVIDIA é a única empresa que se submeteu a todas as cargas de trabalho para cada rodada MLPerf.

Algumas semanas atrás, um novo conjunto de resultados de treinamento MLCommons foi lançado, desta vez para MLPerf 2.1 Training, que o NVIDIA H100 e A100 também dominaram.

Infelizmente, o domínio da NVIDIA sobre os conjuntos de benchmarking MLPerf para inferência e treinamento desviou envios e relatórios de muitas empresas importantes de IA.

A indústria se beneficiaria com a participação de mais organizações, como vimos em outros setores, como CPUs, impulsiona a concorrência e a inovação. O amplo envolvimento em conjuntos de benchmarking é significativo porque o aprendizado de máquina está crescendo exponencialmente. Quase todos os segmentos da indústria usam aprendizado de máquina para uma ampla gama de aplicações. À medida que o uso aumenta, também aumenta o tamanho do modelo. Desde 2018, o MLCommons realiza rodadas de testes que alternam entre as rodadas de testes MLPerf Training e MLPerf Inference.

Nos quatro anos entre o primeiro teste MLPerf em 2018 e os resultados deste ano, o tamanho do modelo de aprendizado de máquina aumentou cinco ordens de magnitude. Com o tamanho do modelo aumentado e conjuntos de dados maiores, ferramentas padronizadas como MLPerf Training e MLPerf Inference são mais cruciais do que nunca. O desempenho do modelo de aprendizado de máquina deve ser medido antes que possa ser melhorado.

Referências de treinamento MLPerf 2.1

Resumo dos benchmarks usados no MLPerf Training v2.1 ... [+]

MLPerf Training e MLPerf Inference usam as mesmas oito cargas de trabalho mostradas no gráfico acima. O Mini Go é uma exceção porque é usado apenas para avaliar o aprendizado por reforço. Cada teste de benchmark é definido por seu próprio conjunto de dados específico e meta de qualidade. A chave é quanto tempo leva para treinar o modelo usando o conjunto de dados especificado com o destino de qualidade especificado.

O MLPerf é vital para IA e aprendizado de máquina porque é um benchmark padrão do setor com resultados de revisão por pares que fornece comparações válidas para treinamento e inferência de modelos. É apoiado pela Amazon, Arm, Baidu, Google, Harvard University, Intel, Meta, Microsoft, Stanford University e University of Toronto.

Vários modelos únicos formam modelos múltiplos de alto desempenho

Aplicativos de IA do mundo real usam vários modelos

É comum que vários modelos de IA sejam encadeados para satisfazer uma única entrada. Um exemplo de redes multimodais é a solicitação verbal do gráfico acima. A pergunta requer dez modelos de aprendizado de máquina para produzir uma resposta. Não apenas vários modelos devem operar sequencialmente, mas também devem fornecer soluções em tempo real.

Alguns serviços em nuvem também usam várias redes para fornecer serviços acelerados por GPUs NVIDIA. Todas as redes e estruturas de aplicativos da NVIDIA estão disponíveis em seu repositório MLPerf, no NGC (repositório de contêiner on-line da NVIDIA) e em seu repositório GitHub.

Desempenho de treinamento de referência A100 e H100

Treinamento MLPerf v2.1 Desempenho

Conforme mostrado no gráfico de desempenho do MLPerf Training 2.1, o H100 forneceu até 6,7 vezes mais desempenho para o benchmark BERT em comparação com o desempenho do A100 em seu primeiro envio do MLPerf em 2019.

A100 ainda está produzindo resultados recordes e alto desempenho com desempenho aprimorado de até 2,5X. Esse ganho é resultado da otimização do software. Provavelmente será uma oferta da NVIDIA por algum tempo.

O desempenho superior do H100 no modelo BERT NLP é atribuído ao seu Transformer Engine. O A100 não possui um mecanismo de treinamento. O novo mecanismo, combinado com NVIDIA Hopper FP8 Tensor Cores, oferece treinamento de IA até 9 vezes mais rápido e acelerações de inferência de IA 30 vezes mais rápidas em modelos de linguagem grandes do que o A100. O H100 é baseado na arquitetura Hopper e usa núcleos tensores de quarta geração.

blog

O desempenho da GPU NVIDIA H100 supera os benchmarks de aprendizado de máquina para treinamento de modelos