OpenAI intensyfikuje prace nad sztuczną inteligencją dźwiękową — i to nie tylko po to, by ChatGPT brzmiał lepiej. Według doniesień serwisu The Information firma w ciągu ostatnich dwóch miesięcy scaliła kilka zespołów inżynieryjnych, produktowych i badawczych, aby przebudować modele audio i przygotować je pod urządzenie osobiste z interfejsem opartym głównie na dźwięku, którego premiera ma nastąpić za około rok.
To posunięcie wpisuje się w szerszy kierunek całej branży technologicznej: ekrany powoli schodzą na drugi plan, a pierwszoplanową rolę zaczyna odgrywać dźwięk. Głośniki inteligentne już teraz sprawiły, że asystenci głosowi są obecni w ponad jednej trzeciej amerykańskich gospodarstw domowych. W ostatnim czasie pojawiły się też inne przykłady tej zmiany — jedno z rozwiązań dla okularów Ray-Ban wykorzystuje pięciomikrofonowy zestaw do kierunkowego wspomagania słyszenia w hałaśliwych pomieszczeniach, Google w czerwcu testowało funkcję „Audio Overviews”, czyli przekształcanie wyników wyszukiwania w konwersacyjne podsumowania, a Tesla integruje model Grok i inne duże modele językowe w samochodach, by stworzyć asystenta głosowego zdolnego sterować nawigacją czy klimatyzacją przy użyciu naturalnej rozmowy.
Nie tylko giganty technologiczne stawiają na dźwięk. Również startupy próbują szczęścia w tej niszy, choć z mieszaną skutecznością. Przykładem jest projekt ekranowego wearable zniknięty z rynku po spaleniu „setek milionów” dolarów — przypadek, który stał się przestrogą dla branży. Inny — naszyjnik z funkcją nagrywania i udzielania „towarzystwa” — wywołał obawy o prywatność i silne reakcje etyczne. Równocześnie pojawiają się firmy pracujące nad pierścieniami z funkcjami AI; co najmniej dwa takie projekty, w tym jeden pod nazwą Sandbar i drugi prowadzony przez założyciela Pebble, Erica Migicovsky’ego, mają się pojawić na rynku w 2026 r. Migicovsky zaprezentował pierścień wyceniony na 75 USD (około 315 zł), przeznaczony do zapisywania krótkich notatek głosowych i sterowania odtwarzaniem muzyki.
Choć formy urządzeń będą się różnić — od okularów, przez głośniki bez ekranu, po biżuterię — koncepcja pozostaje ta sama: dźwięk ma stać się uniwersalnym interfejsem. W praktyce oznacza to przekształcanie każdego otoczenia — domu, samochodu, a nawet naszej twarzy — w platformę do interakcji głosowych.
Nowy model audio OpenAI, planowany na początek 2026 r., ma przynieść kilka istotnych zmian w sposobie prowadzenia rozmowy przez AI: ma brzmieć bardziej naturalnie, radzić sobie z przerywaniami jak realny rozmówca, a także być w stanie mówić jednocześnie z użytkownikiem — funkcja, której obecne modele nie obsługują. Firma rozważa ponadto rodzinę urządzeń audio-first, które mogłyby obejmować okulary lub głośniki bez ekranu — sprzęt zaprojektowany raczej jako „towarzysz” niż jedynie narzędzie.
W pracach nad urządzeniami sprzętowymi bierze udział też projektant Jony Ive, który dołączył do działań OpenAI nad sprzętem po przejęciu jego firmy io przez OpenAI w maju za 6,5 mld USD (około 27,3 mld zł). Według informacji Ive postawił sobie za cel zmniejszenie uzależnienia od urządzeń konsumenckich, traktując podejście audio-first jako okazję do „naprawienia błędów” poprzednich produktów.
Ruch OpenAI i podobne inicjatywy w całej branży sygnalizują, że interakcje głosowe mogą stać się jednym z dominujących sposobów korzystania z technologii. To z kolei rodzi ważne pytania dotyczące projektowania urządzeń, prywatności i roli asystentów stających się coraz bardziej „towarzyskimi” — kwestie, które będą decydujące dla tego, czy audio naprawdę przekształci nasze codzienne interakcje z technologią.