Wyobraź sobie sztuczną inteligencję, która potrafi myśleć jak renesansowy uczony, łącząc wiedzę z takich dziedzin jak astronomia, biologia czy fizyka. Taka wizja staje się coraz bardziej realna dzięki projektowi Polymathic AI, który ogłosił udostępnienie dwóch ogromnych zbiorów danych naukowych. Te zasoby, ważące łącznie 115 terabajtów, mają na celu pomóc systemom AI w rozwijaniu umiejętności interdyscyplinarnego myślenia i odkrywania niespodziewanych powiązań między różnymi dziedzinami nauki.
Szacowany czas czytania: 6 minut
Nowa era multidyscyplinarnej sztucznej inteligencji
Projekt Polymathic AI stanowi przełomowy krok w kierunku tworzenia systemów sztucznej inteligencji, które mogą działać jak prawdziwi naukowcy-polimaci. Dzięki specjalnie zebranym danym naukowym, modele uczenia maszynowego będą mogły czerpać wiedzę z różnorodnych źródeł – od eksplodujących gwiazd po wzorce przepływu krwi. Zasoby te są ponad dwukrotnie większe niż zestaw danych, na którym trenowano GPT-3, jeden z najbardziej zaawansowanych modeli językowych.
„Te zestawy danych są zdecydowanie najbardziej różnorodnymi i największymi kolekcjami wysokiej jakości danych dla uczenia maszynowego, jakie kiedykolwiek stworzono w tych dziedzinach” – mówi Michael McCabe, inżynier badawczy z Flatiron Institute w Nowym Jorku. Według McCabe’a, kluczowym krokiem w procesie rozwoju wielodyscyplinarnych modeli AI jest właśnie odpowiednie przygotowanie takich zbiorów danych.
Czym jest Polymathic AI?
Nazwa projektu wywodzi się od terminu „polimat”, określającego osobę o wszechstronnej wiedzy w różnych dziedzinach. Cel projektu jest jednak bardziej ambitny – zamiast polegać na geniuszu jednostek, Polymathic AI stara się zakodować zdolność interdyscyplinarnego myślenia bezpośrednio w systemach sztucznej inteligencji. Dane, które zostały udostępnione, obejmują m.in. portrety galaktyk z Teleskopu Jamesa Webba, symulacje układów biologicznych oraz modele dynamiczne płynów.
„Uczenie maszynowe w astrofizyce rozwija się już od około dziesięciu lat, ale nadal trudno jest stosować te narzędzia w różnych instrumentach, misjach czy dziedzinach nauki” – tłumaczy Francois Lanusse, naukowiec z Polymathic AI. „Zestawy danych takie jak Multimodal Universe pozwolą na stworzenie modeli, które będą natywnie rozumieć te różnorodne dane i działać jak szwajcarski scyzoryk dla astrofizyki.”
Dwa filary danych: Multimodal Universe i Well
Zbiory danych są podzielone na dwie główne kategorie. Pierwsza z nich, Multimodal Universe, to aż 100 terabajtów obserwacji astronomicznych i pomiarów. Druga kolekcja, nazwana Well, zawiera 15 terabajtów symulacji numerycznych, modelujących złożone procesy, takie jak eksplozje supernowych czy rozwój embrionalny. Symulacje te opierają się na równaniach różniczkowych cząstkowych, które stanowią wspólny język matematyczny dla wielu dziedzin nauki, od mechaniki kwantowej po biologię.
„Te dane, udostępnione za darmo, stanowią bezprecedensowe zasoby do opracowywania zaawansowanych modeli uczenia maszynowego, które mogą mierzyć się z szerokim zakresem problemów naukowych” – zauważa Ruben Ohana, badacz z Centrum Matematyki Obliczeniowej w Flatiron Institute. „Społeczność uczenia maszynowego od zawsze opierała się na otwartości, co właśnie przyspieszyło jej rozwój w porównaniu z innymi dziedzinami.”
Szansa na przełom w nauce
Udostępnienie tych zasobów to coś więcej niż tylko krok naprzód w technologii – to potencjalna zmiana paradygmatu w rozwoju sztucznej inteligencji. Dzięki interdyscyplinarnemu podejściu możliwe będzie odkrycie nowych praw naukowych lub powiązań, które wcześniej były niedostępne dla ludzkiego poznania. Modele oparte na danych Polymathic AI mogą znaleźć zastosowanie w takich obszarach jak odkrywanie nowych leków, eksploracja kosmosu czy badania nad zmianami klimatycznymi.
Słowniczek pojęć
- Polymathic AI
- Sztuczna inteligencja zaprojektowana do pracy w różnych dyscyplinach naukowych, podobnie jak polimaci – ludzie o szerokich kompetencjach w wielu dziedzinach.
- Uczenie maszynowe
- Rodzaj sztucznej inteligencji, który uczy się i doskonali automatycznie poprzez analizę danych.
- Równania różniczkowe cząstkowe
- Matematyczne równania opisujące wiele zjawisk fizycznych, które pojawiają się w różnych dziedzinach nauki.
Sprawdź swoją wiedzę
Jak duże są nowe zbiory danych w porównaniu z danymi treningowymi GPT-3?
Nowe zbiory danych mają łącznie 115 terabajtów, co jest ponad dwukrotnie większe niż 45 terabajtów danych treningowych GPT-3.
Jakie są dwa główne zbiory danych w projekcie?
Multimodal Universe (100TB danych astronomicznych) oraz Well (15TB symulacji numerycznych).
Jak równania różniczkowe cząstkowe łączą różne dziedziny nauki?
Równania te opisują różnorodne procesy, od mechaniki kwantowej po rozwój embrionalny, co pozwala na matematyczne łączenie różnych zjawisk naukowych.
Jaka jest główna zmiana, jaką przynosi ten projekt w rozwoju AI?
Zamiast koncentrować się na dedykowanych narzędziach dla konkretnej dziedziny, projekt dąży do stworzenia modeli AI, które będą działać interdyscyplinarnie i znajdować niespodziewane powiązania między różnymi polami nauki.