Nauka

Naukowcy "wyciągnęli" całe zdania wprost z ludzkich myśli. Jak im się to udało?

Jakub Szczęsny
Naukowcy "wyciągnęli" całe zdania wprost z ludzkich myśli. Jak im się to udało?
Reklama

Odtwarzanie języka na podstawie zapisów mózgu brzmi jak możliwość rodem z cyberpunkowej powieści, prawda? Jesteśmy coraz bliżej tego typu rozwiązań. Wyobraź sobie, że słyszysz fragment rozmowy lub czytasz tekst, a następnie twój mózg przetwarza te informacje na język. Co by było, gdyby możliwe było zarejestrowanie tych procesów i przełożenie ich na faktyczne zdania i słowa?

Badacze opracowali system łączący funkcjonalny rezonans magnetyczny (czyli fMRI) z nowoczesnymi dużymi modelami językowymi — takimi modelami jest choćby cała gama GPT. Dzięki owej technologii możliwe stało się generowanie tekstu na podstawie aktywności mózgowej uczestników badań. Co dzięki temu uzyskujemy jako ludzkość?

Reklama

Klawiatura jest już passe

Od lat naukowcy poszukują sposobów na odczytanie myśli i przełożenie ich na zrozumiały język. Pierwsze próby polegały na dekodowaniu pojedynczych słów lub prostych zdań na podstawie aktywności mózgu. W badaniach często używano zestawów predefiniowanych słów, z których system miał wybrać te najbardziej zbliżone do konkretnego typu aktywności. Metoda ta działała, ale teksty były sztywne, a wybór słów ograniczony niejako "z urzędu". Sporo zmieniło się, gdy naukowcy zaczęli wykorzystywać modele językowe, które nie tylko wybierają słowa, ale potrafią tworzyć całe zdania w sposób bardziej płynny i naturalny.

W artykule "Generative language reconstruction from brain recordings" naukowcy z Tsinghua University, University of Amsterdam i innych ośrodków badawczych zaprezentowali nowatorski system nazwany BrainLLM. Zamiast ograniczać się do wyboru spośród wcześniej ustalonych typów aktywności, BrainLLM generuje tekst na podstawie zapisów w sposób autoregresywny. Model tworzy kolejne słowa na podstawie wcześniej wygenerowanych, co pozwala na uzyskanie bardziej płynnych i spójnych wypowiedzi. W skrócie: LLM niejako "domyśla się", co powinno znaleźć się dalej, bazując na swego rodzaju kontekście, doświadczeniu zapisywanym w modelu oraz dopasowanej do tego aktywności mózgu.

BrainLLM pod lupą

Jak dokładnie działa BrainLLM? Proces rozpoczyna się od zbierania danych z funkcjonalnego rezonansu magnetycznego. W trakcie badania uczestnicy są poddawani różnym bodźcom – mogą to być obrazy, dźwięki lub fragmenty tekstu. Rejestrowane są wzorce aktywności mózgowej, które następnie przetwarzane są przez specjalny moduł adaptacyjny. Jego zadaniem jest przekształcenie danych w reprezentacje wektorowe, które są kompatybilne z modelami językowymi. Owe reprezentacje łączone są z tekstowymi promptami (niemal dokładnie tak, jak by rozmawiamy z ChatGPT), co pozwala na generowanie tekstu — jako wyniku takiej operacji.

BrainLLM radzi sobie szczególnie dobrze w sytuacjach, gdy generowany tekst mniej przewidywalny. To przewaga nad poprzednimi rozwiązaniami. W badaniach wykazano, że system lepiej odwzorowuje te fragmenty, które są mniej oczywiste dla modelu językowego.

Badania przeprowadzono na trzech zestawach danych – Pereira, Huth i Narratives – pokazują, że BrainLLM znacząco przewyższa wcześniejsze podejścia w zakresie dokładności generowania tekstu. Przykładem może być zestaw Huth, w którym system osiągnął średni wskaźnik wygranej na poziomie 78,9%. To wyjątkowo wysoki wynik, biorąc pod uwagę złożoność zadania i fakt, że generowane teksty nie są wybierane z predefiniowanego zbioru, lecz tworzone dynamicznie na podstawie rzeczywistej aktywności mózgowej uczestników.

Wyniki modelu BrainLLM wskazują, że możliwe jest bardziej płynne i realistyczne odtwarzanie języka na podstawie li tylko zapisów fMRI, co jest ogromną szansą w kontekście terapii dla pacjentów z afazją, ale nie tylko. Sporym przełomem będą nowe interfejsy mózg-komputer. Wyobraź sobie, że osoba sparaliżowana mogłaby pisać e-maile lub komunikować się z otoczeniem wyłącznie poprzez myślenie o słowach, lub nawet całych zdaniach. Jeśli rozwiniemy BrainLLM do odpowiedniego poziomu — nie będziemy znali ograniczeń.

Czytaj również: Gracze mają supermózgi? Oto, co odkryli naukowcy!

Reklama

W przyszłości najważniejszym wyzwaniem będzie dalsza optymalizacja modeli, zwiększenie ilości danych treningowych oraz integracja z innymi materiałami – obrazem, dźwiękiem lub nawet emocjami. Badacze mają jeszcze mnóstwo asów w rękawie i zapewne to nie koniec ważnych odkryć w tym temacie.

Reklama

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu

Reklama