Model językowy Phi-2 od Microsoftu, dysponujący 2,7 miliardami parametrów, prezentuje wyjątkowe zdolności w zakresie rozumowania i zrozumienia języka, ustanawiając nowy standard wydajności wśród podstawowych modeli językowych o mniej niż 13 miliardach parametrów.
Phi-2 rozwija sukcesy swoich poprzedników, Phi-1 i Phi-1.5, dorównując lub przewyższając modele do 25 razy większe — dzięki innowacjom w skalowaniu modeli i kuracji danych treningowych.
Kompaktowy rozmiar Phi-2 czyni go idealnym obszarem do badań dla naukowców, ułatwiając eksplorację w zakresie interpretowalności mechanistycznej, poprawy bezpieczeństwa i eksperymentacji z dostrojeniem w różnych zadaniach.
Osiągnięcia Phi-2 opierają się na dwóch kluczowych aspektach:
Jakość danych treningowych: Microsoft podkreśla krytyczną rolę jakości danych treningowych w wydajności modelu. Phi-2 wykorzystuje dane o „jakości podręcznikowej”, koncentrując się na syntetycznych zbiorach danych zaprojektowanych do przekazywania rozumowania opartego na zdrowym rozsądku i ogólnej wiedzy. Korpus treningowy jest wzbogacony o starannie dobrane dane z sieci, filtrowane pod kątem wartości edukacyjnej i jakości treści. Innowacyjne techniki skalowania: Microsoft przyjmuje innowacyjne techniki, aby skalować Phi-2 od swojego poprzednika, Phi-1.5. Transfer wiedzy z modelu o 1,3 miliarda parametrów przyspiesza zbieżność treningu, prowadząc do wyraźnej poprawy w wynikach benchmarków. Ocena wydajności
Phi-2 przeszedł rygorystyczną ocenę w różnych benchmarkach, w tym Big Bench Hard, rozumowanie oparte na zdrowym rozsądku, zrozumienie języka, matematyka i kodowanie.
Mając tylko 2,7 miliarda parametrów, Phi-2 przewyższa większe modele – w tym Mistral i Llama-2 – i dorównuje lub przewyższa niedawno ogłoszony przez Google Gemini Nano 2: Phi-2 to model oparty na Transformerze z celem przewidywania następnego słowa, trenowany na 1,4 biliona tokenów z syntetycznych i sieciowych zbiorów danych. Proces treningu – przeprowadzony na 96 GPU A100 przez 14 dni – koncentruje się na utrzymaniu wysokiego poziomu bezpieczeństwa i twierdzi, że przewyższa otwarte modele pod względem toksyczności i uprzedzeń.
Z ogłoszeniem Phi-2, Microsoft kontynuuje przesuwanie granic tego, co mniejsze podstawowe modele językowe mogą osiągnąć.