Tylko Chuck Norris potrafi zgrać cały Internet na dyskietkę, jak głosi stary dowcip. Tymczasem jednak od kilku lat polscy naukowcy pracują nad skatalo...
Tylko Chuck Norris potrafi zgrać cały Internet na dyskietkę, jak głosi stary dowcip. Tymczasem jednak od kilku lat polscy naukowcy pracują nad skatalogowaniem wszystkich polskich źródeł sieciowych. Prawdopodobnie w czerwcu tego roku zostanie udostępniona publicznie semantyczna wyszukiwarka internetowa Nekst, która precyzyjnie prześledzi 500 milionów rodzimych dokumentów. To może być hit!
Google'a nikt i nic nie przebije. To stwierdzenie stało się już niemal sloganem. Tymczasem szacuje się, że światowe wyszukiwarki mogą gromadzić zaledwie co piąty element po polsku. Profesor Jacek Koronacki, dyrektor IPI PAN, twierdzi ponadto, iż nie mają one mechanizmów naśladujących rozumienie języka.
A gdyby tak zbudować całkowicie nowy algorytm, oparty na polskiej składni i semantyce, "rozumiejący" nasz język i jego niuanse? Na Zachodzie będzie on absolutnie nieprzydatny, natomiast w Polsce i dla Polaków może okazać się narzędziem wręcz bezcennym!
Nad takim właśnie projektem, zatytułowanym "Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych", pracują naukowcy Instytutu Podstaw Informatyki PAN w Warszawie i Politechniki Wrocławskiej.
Celem jest, jak twierdzą autorzy, konstrukcja systemu wspomagającego rozwiązywanie szerokiej klasy problemów w oparciu o analizę struktury i treści dostępnych dokumentów elektronicznych. Analiza ma dotyczyć zawartej w dokumentach wiedzy i informacji reprezentowanej w postaci tekstu oraz wybranych elementów multimedialnych. System będzie łączył mechanizmy: automatycznej odpowiedzi na zadane w języku polskim pytania, automatycznej analizy opinii oraz wielkoskalowej, przekrojowej analizy semantycznej źródeł elektronicznych, połączonej z wyszukiwaniem i wizualizacją wyników.
Głównym obiektem analizy będą dokumenty tekstowe. Będzie to system nowej generacji, oparty na nowych paradygmatach analizy treści i zarządzania treścią dokumentów, z mechanizmami interakcji z użytkownikiem. Docelowo, będzie w stanie obsługiwać kolekcję wszystkich dokumentów polskojęzycznych w Internecie, przy czym będzie wyposażony w mechanizmy przetwarzania dwujęzycznego (polsko-angielskiego).
Projekt podzielony został na 13 zadań. Ich nazwy mogą brzmieć nieco skomplikowanie, jednak w przeciwieństwie do wielu referatów i opracowań, nie jest to pseudonaukowy bełkot, lecz zbiór bardzo konkretnych i zaawansowanych wyzwań, których realizacja może wydatnie przyczynić się do sukcesu przedsięwzięcia. Przyjrzyjmy się niektórym z nich.
Konstrukcja podstawowego ciągu przetwarzania tekstu na poziomie wyrazowym
Opracowanie i implementacja podstawowego schematu przetwarzania tekstu w języku polskim na poziomie wyrazowym. W ramach tego zadania opracowano metody pozwalające na wyodrębnienie w tekście wyrazów, podział tekstu na zdania, opis morfologiczny wystąpień wyrazów, opis wybranych cech składniowych wystąpień wyrazów, rozpoznanie znaczeń leksykalnych wystąpień wyrazów.
Dzięki temu możliwa będzie automatyczna analiza postawionego przez użytkownika problemu oraz znajdowanie trafnych odpowiedzi.
Jak piszą autorzy, mamy w języku do czynienia z niejednoznacznością wyższego poziomu abstrakcji. Tego samego słowa możemy bowiem używać w różnych, czasem odmienych znaczeniach. Słowo "pociąg" może oznaczać pociąg (lokomotywę i wagony) do Warszawy, jak i pociąg do kobiet.
Aby umożliwić wnioskowanie na temat znaczenia tekstu, istotne jest rozpoznanie, który sens słowa został użyty w danym kontekście.
Generyczny system przekrojowej analizy zawartości informacyjnej źródeł tekstowych
W ramach tego zadania skonstruowano moduł, który umożliwia zbieranie danych statystycznych czy "analizę zależności pomiędzy jednostkami różnego typu ujawniających się w skali masowej, np. siłę powiązania i naturę powiązań poszczególnych osób z poszczególnymi podmiotami gospodarczymi".
Opracowanie mechanizmów pogłębionego przetwarzania składniowo-semantycznego
Celem jest tu wykreowanie metod wysokopoziomowego syntaktycznego i semantycznego przetwarzania tekstów, tak ogólnych, jak i dziedzinowych. Syntanktyka bada wzajemne stosunki i właściwości budowy wyrażeń języka w procesie porozumiewania się ludzi. Semantyka z kolei związki, jakie zachodzą między wyrażeniami języka a przedmiotami, do których się one odnoszą, czyli, krótko mówiąc, zajmuje się analizą znaczeń wyrazów.
Opracowanie mechanizmów przetwarzania polsko-angielskiego
Wbrew pozorom to szalenie trudne zadanie, gdyż nie opiera się ono li tylko na tłumaczeniu wyrazów, ale ma wykreować zaawansowany algorytm uwzględniający bagaż znaczeniowy i gramatykę.
Generyczny system wydobywania informacji z tekstu oparty na maszynowym uczeniu się
Skuteczność wydobywania informacji zależy od poziomu dokładności opisu poszukiwanych obiektów lub zdarzeń dostarczonego przez użytkownika. Opis może być niekompletny lub nieprecyzyjny. W takim przypadku użytkownik będzie poproszony o dokładniejsze sprecyzowanie opisu zadania w oparciu o analizę odnalezionych już dokumentów i zawartych w nich informacji.
Wydobywanie informacji dziedzinowych w oparciu o ontologie
Celem szóstego zadania jest przetestowanie wybranych, istniejących już metod automatycznego ekstrahowania informacji i semantycznego znakowania tekstów, a następnie opracowanie odpowiednich wariantów, które dadzą najlepszy rezultat przy realizacji danego zapytania. To trochę jak porównywanie ofert kredytów mieszkaniowych celem znalezienia wersji optymalnej - najbardziej dostosowanej do potrzeb poszukującego.
Automatyczna analiza opinii i uczuć
Mówiąc jak najprościej i jak najkrócej wyszukiwarka bedzie potrafiła dokonac analizy opinii, co może na przykład pomóc odróżnić źródła wiarygodne od źródeł hejterskich.
System wyszukiwania odpowiedzi na pytania
Brzmi banalnie, ale nie chodzi tu o zapytanie w sensie słowa wpisanego do wyszukiwarki, tylko o pełnoprawne pytanie sformułowane w języku naturalnym i osadzone w pewnym kontekście. Słowem, gdy wpiszemy zdanie "Kto był pierwszym królem Polski?", system odpowie nam i poda źródła.
Szczegółowy opis powyższych oraz pozostałych zadań znajdziecie tutaj.
Warto? Z pewnością!
Przy założeniu, że uda się z powodzeniem wykonać wszystkie postawione przed twórcami zadania, możemy się spodziewać produktu rewolucyjnego. Czerwcowa odsłona będzie miała zindeksowane 500 milionów źródeł, a docelowo Nekst ma niejako zawrzeć w sobie cały polski Internet. Dodatkową funkcjonalnością będzie też lepsza wykrywalność wszelkich plagiatów. Obecne systemy, stosowane np. w szkołach wyższych, pozostawiają w tej materii wiele do życzenia. Dostępna także będzie opcja wyszukiwania graficznego.
Projekt, którego wartość to niemal 15 mln zł, finansowany jest z Programu Operacyjnego Innowacyjna Gospodarka.
Na podstawie źródeł Instytutu Podstaw Informatyki PAN i Politechniki Wrocławskiej
Fot w nagłówku: ilovegraffiti.de
Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu