Inżynierowie Apple są zdania, że jeden z ich modeli wykorzystywanych w Siri przewyższa ChatGPT 4.0. W niedawno opublikowanym dokumencie badawczym, wiodący inżynierowie Apple pracujący nad sztuczną inteligencją opisują system, który pozwala Siri wykonywać znacznie więcej niż tylko rozpoznawać treści obrazów. Co najlepsze? Uważają, że jeden z modeli wykorzystywanych do tych testów przewyższa ChatGPT 4.0. W dokumencie (ReALM: Rozwiązywanie Referencji jako Modelowanie Języka) Apple przedstawia koncepcję, która może znacznie zwiększyć użyteczność asystenta głosowego wspomaganego przez duży model językowy. ReALM uwzględnia zarówno to, co jest wyświetlane na ekranie, jak i aktywne zadania. Oto fragment dokumentu opisujący to podejście:
- (Jednostki na ekranie): dotyczy jednostek aktualnie wyświetlanych na ekranie użytkownika.
- (Jednostki konwersacyjne): odnoszą się do jednostek istotnych dla rozmowy. Mogą pochodzić z poprzedniej wypowiedzi związanej z użytkownikiem (np. kiedy użytkownik mówi „Zadzwoń do mamy”, kontakt do mamy jest właściwą jednostką), lub od wirtualnego asystenta (np. kiedy asystent oferuje użytkownikowi listę miejsc lub alarmów do wyboru).
- (Jednostki w tle): odnoszą się do jednostek istotnych pochodzących z procesów działających w tle, które nie muszą być bezpośrednio widoczne dla użytkownika na jego ekranie lub w jego interakcji z wirtualnym asystentem; na przykład alarm, który zaczyna dzwonić, lub muzyka odtwarzana w tle.
To wszystko wydaje się przepisem na inteligentniejszego i bardziej użytecznego Siri. Apple również wydaje się być pewne swojej zdolności do wykonania takiego zadania z imponującą szybkością. Porównanie z ChatGPT 3.5 i ChatGPT 4.0 od OpenAI wygląda następująco:
Jako dodatkowy punkt odniesienia używamy wersji GPT-3.5 i GPT-4 ChatGPT, dostępnych 24 stycznia 2024 roku, z uczeniem kontekstowym. Tak jak w naszej konfiguracji, staramy się, aby obie wersje przewidywały listę jednostek z dostępnego zestawu. W przypadku GPT-3.5, który przyjmuje tylko tekst, nasze dane wejściowe ograniczają się do samego promptu; jednak w przypadku GPT-4, który ma również zdolność kontekstualizacji obrazów, dostarczamy systemowi zrzut ekranu z zadaniem rozwiązania referencji na ekranie, co znacząco poprawia wydajność.
Jak więc wypada model Apple? Potwierdzamy duże ulepszenia w porównaniu do istniejącego systemu o podobnych funkcjach w różnych typach odniesień, z naszym mniejszym modelem osiągającym absolutny wzrost o ponad 5% dla referencji na ekranie. Przeprowadziliśmy również benchmarki z GPT-3.5 i GPT-4, przy czym nasz mniejszy model osiągał wyniki porównywalne z GPT-4, a nasze większe modele znacznie go przewyższały.