Sztuczna Inteligencja

Sztuczna inteligencja - czy umie już po polsku?

Redakcja Antyweb
Sztuczna inteligencja - czy umie już po polsku?
6

Tworząc postać Szczerbatka, sympatycznego czarnego smoka, studio DreamWorks w dużej mierze inspirowało się kotami. Przewrotna natura głównego bohatera kultowej animacji, to właśnie ten „koci gen”. Na obecnym etapie rozwoju, sztuczna inteligencja również zdaje się czerpać pełnymi garściami z kociego, przewrotnego i humorzastego charakteru. Zatem czy AI radzi sobie z naszym językiem?

Autorem artykułu jest Krzysztof Swoboda, Senior Content Specialist w Takaoto, AI Content Designer & Editor.

Czy sztuczna inteligencja radzi już sobie z językiem polskim?

Boom na SI rozpoczął się w 2019 roku, gdy na rynku pojawił się model GPT-2, który pod wieloma względami można było uznać za przełomowy. OpenAI udostępniło rozwiązanie, które obsługiwało aż 1,5 miliarda parametrów. Aby dobrze uzmysłowić sobie zakres analizowanych zmiennych, wystarczy tylko przypomnieć, że ludzki mózg ma około 100 miliardów aktywnych połączeń nerwowych.

Względem innych modeli, które pojawiały się na zachodzie już od przełomu 2017-2018 roku, była to prawdziwa rewolucja. Choć już wcześniej pojawiały się ciekawe rozwiązania, jak Autoencoder i jego hybryda — VAR.

Mogłoby się wydawać, że 1,5% z tej liczby powinno wystarczyć do poradzenia sobie z tak banalnym zadaniem, jak pisanie treści pod frazy, lub tworzeniem prostych wpisów blogowych, prawda? I tak i nie. Odpowiedź na to pytanie doskonale wpisuje się zarówno we wspomniany już koci charakter, jak i w dwa ulubione słowa w branży SEO: to zależy.

O ile GPT-2 radził sobie całkiem dobrze z większością języków zachodniogermańskich, tak treści, jakie można było generować w ten sposób po polsku były — delikatnie mówiąc — dalekie od ideału. Jeśli ktoś chce przekonać się, dlaczego język polski uchodzi za jeden z najtrudniejszych na świecie, niech spróbuje wygenerować dłuższy tekst, korzystając z tego modelu. Umożliwią to takie usługi, jak:

  • DeepAI,
  • Transformer,
  • Inferkit.

Co umożliwia GPT-3? Jak działa sztuczna inteligencja do generowania tekstów w praktyce?

Warto rozpocząć od tego, czym różni się trzecia generacja modelu od swojego poprzednika. OpenAI do spółki z Microsoftem wykonało kawał gigantycznej pracy, a następnie — w dużej mierze dzięki firmie z Redmond — ograniczyło dostęp do projektu wszystkim zainteresowanym.

Dlaczego? Oficjalnie ze względu na ogromne koszty związane z predykcją, jednak zdaniem wielu osób, na decyzji Microsoftu zaważyło to, że model okazał się zaskakująco dobry. Trudno się temu dziwić: 175 miliardów obsługiwanych parametrów musi robić wrażenie. Warto w tym miejscu przypomnieć raz jeszcze, że poprzednik obsługiwał tylko 1,5 mld takich połączeń.

W 2020 roku, na jednym z dużych amerykańskich portali, przeprowadzono eksperyment, który potwierdził, że jakość generowanych w ten sposób publikacji jest dla zdecydowanej większości odbiorców nie do odróżnienia od treści, jakie tworzą redaktorzy czy pracownicy Contentu.

Od drugiej połowy 2021 roku stopniowo obserwujemy zmianę polityki Microsoftu, który już teraz dopuszcza wydawców do GPT-3 i udziela im dostępu do oprogramowania. Model wciąż nie jest dostępny publicznie, co oznacza, że możliwości jego trenowania są relatywnie niewielkie.

Zgodnie z oficjalnymi danymi, tylko 22% mocy obliczeniowej, co przekłada się na około 19 miliardów połączeń, odpowiada za moduł generowania treści WebText2. Dopóki GPT-3 nie zostanie oficjalnie udostępnione na takich samych zasadach, jak poprzednik, będzie to szklany sufit, którego społeczności nie uda się przeskoczyć.

SI do generowania tekstów, czyli GPT-3 a język polski

Już dziś można wskazać na kilka usług webowych, które korzystają z GPT-3, a na dodatek mogą pochwalić się na tym polu wieloma sukcesami. Te najważniejsze, to WriteSonic, Rytr oraz Jarvis. Każde z tych narzędzi ma swoje mocne i słabe strony. W tej chwili trudno wytypować to najlepsze.

W mojej subiektywnej bardzo ciekawą opcją jest WriteSonic, który nie tylko pozwala na tworzenie treści blogowych dzięki modułowi GPT-3, ale może pochwalić się też tzw. uproszczonym GPT-3, choć na stronie twórców narzędzia na próżno szukać informacji o tym, co to oznacza w praktyce.

Warto jednak zwrócić uwagę na to, że w zaledwie dwa lata udało się dokonać ogromnego skoku, który w ekosystemie SI, można wręcz nazwać rewolucją. Z mojej analizy danych wynika, że już teraz 70% treści, jakie udaje się w ten sposób stworzyć, można uznać za poprawne.

Oczywiście, GPT-3 wciąż nie stworzy wzorowej recenzji produktu, ani nie napisze za nas artykułu eksperckiego. Bez trudu wygenerujemy jednak treści, które wystarczą do budowy zaplecza, a czasem nawet nadają się na serwisy mid-end, które gromadzą pewną stałą widownię.

Sztuczna inteligencja dobrze radzi też sobie w generowaniu treści produktowych, jednak wciąż widać dość wyraźnie, że model nie był przez odpowiednio długi czas trenowany. Jeśli wybrana platforma sprzedażowa handluje urządzeniami, które są sprzedawane w skali globalnej, na przykład kartami graficznymi, to szansa na stworzenie atrakcyjnego dla oka odbiorcy opisu będzie o wiele większa niż w sytuacji, gdy sprzedajemy lokalne, ręcznie tkane obrusy, czy zdrową żywność z wybranego regionu Polski.

Najczęstsze wpadki SI podczas generowania tekstów po polsku

Model wciąż ma tendencje do „usprawiedliwiania treści”, co bywa szczególnie irytujące podczas generowania opisów produktów. Sytuacje, kiedy GPT-3 próbowała przemycić cytat, by w jakiś sposób uwiarygodnić stworzony tekst, zdarzały się bardzo często.

Podobne wnioski wysnuli Gary Marcus i Ernest Davis z MIT, którzy dokładnie pochylili się nad predykcją tekstu, tworzonego przez sztuczną inteligencję. Badacze byli też zaskoczeni absurdalnością niektórych błędów, jakie pojawiały się w publikacjach.

W tym miejscu raz jeszcze warto wrócić do przywołanej we wstępie, kociej natury sztucznej inteligencji. Nie brakuje sytuacji, kiedy po wprowadzeniu leada i kilku nagłówków H2, gdzie umieścimy ważne dla nas frazy, powstanie zaskakująco dobry tekst. Z drugiej strony, GPT-3 wciąż potrafi pomylić harmonijkę ustną z harfą, lub błyskotliwie stwierdzić, że Samsung Galaxy A53 zadebiutował w 2018 roku i ma 2 GB pamięci RAM.

Oczywiście, można wytłumaczyć to metodologią rozbijania tokenów, którym później przyporządkowuje się określone ID. Zapewne w tym konkretnym przypadku pojawił się token UNK (unkown) i model skupił się tylko na frazie “Samsung Galaxy”, jednak w tak zaawansowanym narzędziu, nie powinno to mieć miejsca.

Przy zachowaniu pewnych restrykcyjnych zasad, już dziś można z nim pracować, jednak droga do powstania Skynetu jest jeszcze bez wątpienia bardzo długa i wyboista. Nie brakuje obserwatorów, którzy twierdzą, że to nie ilość powiązań NPU jest najważniejsza, ale realne wytrenowanie modelu i jakość dostarczanych danych. A tu wciąż trzeba nadrabiać spore braki, które wynikają z dość restrykcyjnego, mocno ograniczonego dostępu do GPT-3.

Czy potrzebuję GPT-3? Niekoniecznie…

Wśród wielu osób, które dokładnie śledzą nowości, jakie pojawiają się w branży SI, nie brakuje takich, które twierdzą, że największą zaletą GPT-3 jest to, że doskonale pokazało nam, jak ważny jest czynny udział społeczności w rozwijaniu sztucznej inteligencji.

Nie brakuje osób, które po zapoznaniu się z potencjałem GPT-3zdecydowały się wybrać tzw. „Transformera”, czyli współtworzony przez społeczność model GPT-2-Large. Tylko w zeszłym tygodniu został on pobrany ponad 200 tysięcy razy, co pokazuje, że jest spore zainteresowanie aplikacjami, które można samodzielnie trenować.

Dla wielu osób największą przeszkodą będzie interfejs tekstowy, który wymaga pewnej podstawowej wiedzy technicznej. To jednak zagadnienie, z którym można sobie poradzić. Analiza, a następnie dopasowanie niezbędnych parametrów wyjściowych, to nie więcej niż kilka dni nauki.

Ogromnym atutem ogólnodostępnych modeli, które powstały na bazie ”czystego” GPT-2 jest niewielka zasobożerność. Podstawowe wersje, tzw. slimy, powinny zadziałać na komputerach, które mają 8 GB pamięci RAM. To niewiele. Żyjemy w czasach, kiedy więcej pamięci ma smartfon ze średniej półki cenowej.

Zaawansowane modele będą odrobinę bardziej zasobożerne. 14-16 GB RAM to solidny punkt wyjścia. Można skorzystać też z usługi Colab od Google, lub wesprzeć się chmurą obliczeniową Amazona. Warto jednak pamiętać o tym, że taki proces może być dość czasochłonny. Owszem, każdy z nas może w kilka chwil sprawdzić, jak sztuczna inteligencja działa na losowym przykładzie, ale jeśli chcemy wykorzystać ją produkcyjnie, potrzebne będą już pewne zasoby.

Kluczowa będzie liczba iteracji oraz wynik, jaki chcemy osiągnąć w OpenWeb Text. W sieci można znaleźć wiele ciekawych case study, gdzie dla języka angielskiego optymalna liczba iteracji niezbędna do wytrenowania modelu przekraczała 75 tysięcy.

Warto jednak zwrócić uwagę na to, że stopień złożoności języka polskiego jest o wiele większy, a na dodatek mamy o wiele mniej danych, niż np. osoby komunikujące się po angielsku. W praktyce może oznaczać to zwiększoną ilość iteracji, na co wpływa też kierunek, w jakim będziemy rozwijać model. Prościej będzie wytrenować bota, niż narzędzie, które dostarczy nam choćby poprawnych jakościowo treści na drugi tier.

W tym miejscu pojawia się najważniejsza kwestia: kryterium ekonomiczne. WriteSonic, w mojej opinii, najlepsze narzędzie dostępne na dziś dzień na rynku, w pakiecie Professional, to wydatek 45 USD (200 PLN) miesięcznie. Znośnie, prawda?

Warto jednak zwrócić uwagę na cenę, jaką trzeba zapłacić za narzędzie, które pozwoli na tworzenie longformów. Tutaj kwota jest już o wiele wyższa. Za opcję wygenerowania ponad 175 słów zapłacimy 195 dolarów, co daje nam ponad 800 złotych.

Może się okazać, że wytrenowanie własnego modelu, bazującego na GPT-2, będzie rozwiązaniem, które w pewnej perspektywie czasowej nie tylko pozwoli nam zaoszczędzić, ale też dostarczy treści o porównywalnej lub wyższej jakości, która dodatkowo będzie dopasowana pod profil naszej działalności. Kwestią czasu jest też powiązanie swojego modelu SI z frazami. Contadu już dziś pokazuje, że jest to możliwe, a na dodatek działa zaskakująco dobrze!

Podsumowanie

Zdania odnośnie do użyteczności sztucznej inteligencji w treściach tworzonych w języku polskim wciąż są mocno podzielone. Nie brakuje osób, które już teraz analizują rynek. Z drugiej strony, są też sceptycy, którzy wciąż twierdzą, że to o wiele za wcześnie.

Kompromisem byłoby stwierdzenie, że prawda leży pośrodku. A jeśli tak nie jest? Co, jeśli ta publikacja powstała dzięki modelowi bazującemu na GPT-2-Large?

O autorze:
Krzysztof Swoboda, Senior Content Specialist w Takaoto, AI Content Designer & Editor.

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu