Generatywna sztuczna inteligencja (AI) staje się coraz bardziej zaawansowana, a jej zastosowania obejmują nie tylko tekst, ale także kod komputerowy, łańcuchy białkowe, streszczenia, wideo, a nawet grafikę 3D. Aby efektywnie trenować modele językowe (LLM), które są sercem tych technologii, potrzebne jest przyspieszone przetwarzanie na skalę centrów danych. Właśnie w tym obszarze platformy NVIDII, takie jak Blackwell i Hopper, pokazują swoje możliwości.
Imponujące wyniki platformy NVIDIA Blackwell
W najnowszych branżowych benchmarkach MLPerf Training 4.1, platforma NVIDIA Blackwell dostarczyła imponujące wyniki w testach różnych obciążeń, osiągając nawet o 2,2 razy lepszą wydajność na pojedynczym GPU w benchmarkach związanych z trenowaniem LLM, takich jak fine-tuning modelu Llama 2 70B czy wstępne trenowanie modelu GPT-3 175B.
Co więcej, zgłoszenia dotyczące platformy NVIDIA Hopper nadal utrzymują rekordy na skalę masową we wszystkich benchmarkach, w tym na przykład w benchmarku GPT-3 175B przy użyciu aż 11 616 procesorów graficznych Hopper.
Skokowy rozwój dzięki architekturze Blackwell
Pierwsze zgłoszenie dotyczące szkolenia modelu Blackwell do MLCommons Consortium — które tworzy standardowe, bezstronne i rygorystycznie recenzowane testy dla branży — pokazuje, jak architektura ta rozwija wydajność w zakresie trenowania generatywnej sztucznej inteligencji. Warto tu wspomnieć o nowych jądrach obliczeniowych, które efektywniej wykorzystują Tensor Cores. Te zoptymalizowane jądra to specjalistyczne operacje matematyczne, takie jak mnożenie macierzy, odgrywające kluczową rolę w algorytmach głębokiego uczenia.
Dzięki większej przepustowości obliczeniowej na pojedynczym GPU oraz znacznie większej i szybszej pamięci o dużej przepustowości, Blackwell pozwala na wykonanie benchmarku GPT-3 175B na mniejszej liczbie GPU, jednocześnie utrzymując doskonałą wydajność na każdym z nich. Dla porównania, tylko 64 GPU Blackwell były w stanie wykonać ten test bez pogorszenia wydajności per procesor. W przypadku tej samej operacji, wykorzystując platformę Hopper, potrzeba było już 256 GPU.
Nieustanna optymalizacja
NVIDIA stale rozwija swoje oprogramowanie, co przekłada się na coraz lepsze wyniki zarówno w zakresie trenowania, jak i wnioskowania w różnych modelach i aplikacjach. W najnowszej rundzie zgłoszeń do MLPerf, platforma Hopper osiągnęła 1,3-krotny wzrost wydajności szkolenia modeli GPT-3 175B na każdym GPU od momentu wprowadzenia tego benchmarku.
Firma przedstawiła również wyniki na dużą skalę, używając 11 616 procesorów Hopper połączonych za pomocą technologii NVIDIA NVLink i NVSwitch oraz sieci NVIDIA Quantum-2 InfiniBand, co jeszcze bardziej poprawiło komunikację między GPU. Warto zauważyć, że od zeszłego roku, NVIDIA zwiększyła wydajność platformy Hopper ponad trzykrotnie w benchmarku GPT-3 175B.
Oprócz tego, w benchmarku Llama 2 70B z wykorzystaniem technologii LoRA do fine-tuningu, NVIDIA poprawiła wydajność o 26% przy użyciu tej samej liczby procesorów Hopper, co pokazuje, jak efektywne są ciągłe ulepszenia oprogramowania.
Współpraca z partnerami
NVIDIA aktywnie współpracuje z wieloma partnerami, w tym z producentami systemów oraz dostawcami usług chmurowych, takimi jak ASUSTek, Azure, Cisco, Dell, Fujitsu, Giga Computing, Lambda Labs, Lenovo, Oracle Cloud, Quanta Cloud Technology i Supermicro. Wspólnie z nimi firma dostarczyła imponujące wyniki w ostatniej serii benchmarków MLPerf.
Jako jeden z założycieli MLCommons, NVIDIA odgrywa kluczową rolę w promowaniu branżowych standardów i najlepszych praktyk w benchmarkingach dotyczących obliczeń AI. Dostęp do recenzowanych, opartych na standardach wyników pozwala firmom nadążać za najnowszymi innowacjami w dziedzinie AI i HPC oraz podejmować lepiej poinformowane decyzje inwestycyjne dotyczące platform.
Podsumowanie
Platformy NVIDII, takie jak Blackwell i Hopper, nieustannie przesuwają granice wydajności w dziedzinie AI. Dzięki ciągłym optymalizacjom oprogramowania, zwiększaniu mocy obliczeniowej i ścisłej współpracy z partnerami, NVIDIA dostarcza potężne narzędzia do trenowania i wdrażania generatywnych modeli sztucznej inteligencji. Te innowacje przynoszą korzyści nie tylko w postaci wyższej wydajności, ale i lepszego zwrotu z inwestycji dla klientów korzystających z tych platform.