Badacze z MIT wprowadzają metodę, która wykorzystuje sztuczną inteligencję do automatyzowania wyjaśnień skomplikowanych sieci neuronowych. Wyjaśnianie działania wytrenowanych sieci neuronowych pozostaje fascynującą zagadką, szczególnie w miarę wzrostu ich rozmiaru i złożoności. Podobnie jak inne wyzwania naukowe w historii, inżynieria odwrotna w działaniu systemów sztucznej inteligencji wymaga znaczącej ilości eksperymentów: tworzenia hipotez, interweniowania w zachowaniu, a nawet rozkładania dużych sieci na pojedyncze neurony. Dotychczas większość udanych eksperymentów wymagała dużego nadzoru ludzkiego. Wyjaśnianie każdej operacji wewnątrz modeli takich jak GPT-4 i większych z pewnością wymagać będzie większej automatyzacji — być może nawet za pomocą samych modeli SI.
W tym celu badacze z Laboratorium Nauki Komputerowej i Sztucznej Inteligencji (CSAIL) w MIT opracowali nowe podejście, wykorzystujące modele SI do przeprowadzania eksperymentów na innych systemach i wyjaśniania ich zachowania. Ich metoda wykorzystuje agenty oparte na wstępnie wytrenowanych modelach językowych do tworzenia intuicyjnych wyjaśnień obliczeń w wytrenowanych sieciach.
Centralnym elementem tej strategii jest „automatyczny agent interpretowalności” (AIA), zaprojektowany do naśladowania procesów eksperymentalnych naukowca. Agenci interpretowalności planują i wykonują testy na innych systemach obliczeniowych, które mogą mieć różną skalę – od pojedynczych neuronów po całe modele – aby produkować wyjaśnienia tych systemów w różnych formach: opisy językowe tego, co system robi i gdzie zawodzi, oraz kod reprodukujący zachowanie systemu. W przeciwieństwie do istniejących procedur interpretowalności, które pasywnie klasyfikują lub podsumowują przykłady, AIA aktywnie uczestniczy w tworzeniu hipotez, testowaniu eksperymentalnym i iteracyjnym uczeniu, w ten sposób doskonaląc swoje zrozumienie innych systemów w czasie rzeczywistym.
Sarah Schwettmann, doktor z CSAIL, współautor pracy nad nową metodą, podkreśla zalety tego podejścia: „Zdolność AIAs do autonomicznego generowania hipotez i testowania może być w stanie ujawnić zachowania, które inaczej byłoby trudno naukowcom wykryć. To niezwykłe, że modele językowe, wyposażone w narzędzia do badania innych systemów, są zdolne do tego typu projektowania eksperymentów”.