Małe modele językowe: Nowe podejście w przetwarzaniu danych biznesowych
Nowa perspektywa na przetwarzanie dokumentów
Wszystko zaczęło się od niewielkiej firmy zajmującej się rozpoznawaniem znaków optycznych (OCR) w Korei Południowej. Dzisiaj Upstage, bo o tej firmie mowa, zajmuje się rozwijaniem Małych Modeli Językowych (ang. Small Language Models, SLMs), które mają zastosowanie w przetwarzaniu dokumentów. Dzięki tym wyspecjalizowanym modelom mogą one osiągać niespotykaną dotąd dokładność przy znacznie mniejszych kosztach niż popularne Duże Modele Językowe (ang. Large Language Models, LLMs).
Kiedy na światło dzienne wyszedł ChatGPT, klienci Upstage zaczęli pytać o rozwiązania oparte o LLMs. Mimo że zdolność technologii OCR Upstage osiągała 95% dokładności, klienci wciąż oczekiwali absolutnej perfekcji. To zmusiło firmę do przemyślenia swojego podejścia i skoncentrowania się na budowie modeli, które mogłyby lepiej odpowiadać na specyficzne potrzeby użytkowników.
Dlaczego małe modele językowe?
W świecie zdominowanym przez entuzjazm wokół LLMs, małe modele językowe oferują mniej uwagi, ale ich potencjał jest ogromny. Oprócz mniejszych rozmiarów i kosztów eksploatacji, SLMs koncentrują się na węższych i bardziej sprecyzowanych zadaniach. Przykładowo, Upstage opracowuje modele skoncentrowane na specyficznych językach lub przemysłach, takich jak przetwarzanie dokumentów. W modelach SLM można osiągnąć lepsze wyniki w szczególnie zorientowanych na cel domenach, co czyni je bardziej praktycznym rozwiązaniem dla firm o specyficznych wymaganiach.
„Klienci chcieli modelu językowego, który byłby dopasowany do ich specyficznych potrzeb” – stwierdziła Lucy Park, współzałożycielka i Chief Product Officer w Upstage. Takie podejście idealnie wpisuje się w potrzeby firm, które oczekują personalizacji, a nie uniwersalnych rozwiązań.
Technika łączenia modeli
Jednym z przełomowych podejść Upstage do budowy małych modeli językowych jest technika łączenia modeli znana jako model merging. Polega ona na scalaniu parametrów z dwóch mniejszych modeli w celu stworzenia większej jednostki, która może lepiej spełniać wybrane zadania. Proces ten eliminuje potrzebę dostępu do pierwotnych danych treningowych i ogranicza koszty obliczeniowe.
Przykładowo, firma może połączyć model o 7 miliardach parametrów z modelem o 10 miliardach parametrów, tworząc większy i efektywniejszy model o 22 miliardach parametrów. Tego typu innowacyjne podejście pozwala na poprawę dokładności działania modeli bez konieczności budowania ich od podstaw.
Wyniki mówią same za siebie – flagowy model Upstage, „Solar Pro”, wykazał 64% poprawę w rozumieniu języków w regionie Azji Wschodniej w porównaniu do poprzednich wersji.
Koszty a skalowalność
Jednym z najważniejszych atutów małych modeli językowych są ich niskie koszty rozwoju i wdrażania. W uproszczeniu, jeśli stworzenie SLM kosztuje 10 dolarów, to cenę opracowania LLM można oszacować na 100 dolarów – czyli dziesięciokrotnie więcej. Dzięki temu SLM stanowią bardziej ekonomiczne rozwiązanie dla firm, które potrzebują modeli językowych o ograniczonej, ale wyjątkowo skutecznej funkcjonalności.
Modele takie jak „Solar Pro” są już dostępne na takich platformach jak Amazon Bedrock Marketplace, co jeszcze bardziej ułatwia ich integrację z infrastrukturami firmowymi. Przykłady wdrożeń obejmują wykorzystanie modeli zarówno w chmurze, jak i w systemach lokalnych firm, pozwalając na elastyczne dostosowanie technologii do potrzeb przedsiębiorstw.
Zastosowania w specyficznych językach
SLMs udowodniły swoją wartość także w kontekście języków narodowych. Upstage stworzył na przykład model dedykowany językowi tajskiemu, który osiągnął wyniki zbliżone do modelu GPT-4. Dzięki takiemu podejściu można tworzyć modele bardziej precyzyjne w nauce danego języka, co wspiera lokalne biznesy i społeczeństwa.
Specjalizacja i wąskie zastosowanie to kluczowe elementy, które odróżniają modele SLM od ich większych odpowiedników. W momencie, gdy świat zachwyca się zdolnościami LLM, małe modele językowe powoli budzą zainteresowanie jako alternatywa bardziej zróżnicowana i przystępna.
Przyszłość małych modeli językowych
Budowa małych modeli językowych to nowy, ekscytujący kierunek w świecie sztucznej inteligencji. Dla wielu firm okazuje się on bardziej praktyczny i opłacalny w realizacji codziennych zadań. Specjalizacja, personalizacja i niższe koszty sprawiają, że SLMs mogą przyciągać coraz większą uwagę w nadchodzących latach.
W erze, w której precyzja zaczyna być kluczowym elementem, małe modele językowe mogą stać się jednym z kluczowych elementów strategii technologicznych dla firm na całym świecie. Upstage jest doskonałym przykładem tego, jak innowacyjne podejście do modeli językowych zmienia paradygmaty współczesnej sztucznej inteligencji.