Odkrycie naukowców w ChatGPT wskazuje na to, że jest problem z prawami autorskimi w kontekście rozwijających się modeli językowych. Według najnowszego ich badania prowadzonego przez ekspertów ds. sztucznej inteligencji z ramienia ByteDance (właściciel TikToka) podejmuje się m. in. w ChatGPT, aby interfejsy służące do konwersacji unikały odpowiedzi opartych na materiałach chronionych prawem autorskim. Choć faktem jest to, że na takich treściach bazują.
Nie uwierzysz, co "przeczytał" ChatGPT. OpenAI nie zapłacił za to ani centa
ChatGPT to zdecydowanie jeden z najważniejszych modeli językowych, które zostały przeszkolone na bazie tekstów z Sieci, włączając w to treści objęte prawami autorskimi. (podobnie jest z artykułami w Internecie, które przecież też są nimi objęte) Nic dziwnego, że pojawiło się sporo pozwów ze strony autorów...
W pracy badawczej sugeruje się, że ChatGPT oraz podobne modele są budowane tak, aby "unikały" odpowiedzi w taki sposób, by zwrócić uwagę na przeszkolenie za pomocą treści objętych prawami autorskimi. To zjawisko, które nie występowało w poprzednich wersjach ChatGPT. Naukowcy spekulują, że taki mechanizm ma na celu wykrywanie prób wyodrębniania z danych treningowych treści chronionych prawem autorskim. Jednak mimo wysiłków w kierunku ukrywania takiego sposobu wytrenowania modelu, ChatGPT nadal wykazuje tendencję do "wkopywania się". To zjawisko dotyczy również innych znanych modeli, takich jak OPT-1.3B od Meta, FLAN-T5 od Google czy ChatGLM opracowanego przez Uniwersytet Tsinghua. Badacze przetestowali te modele, zadając im pytania oparte na serii książek o Harrym Potterze i uzyskując odpowiedzi, które były prawie identyczne lub bardzo zbliżone do oryginalnych cytatów.
Nie da się w pełni zabezpieczyć wycieków treści chronionych prawami autorskimi
Niektóre głosy wskazują na fakt, że mimo "korygowania" odpowiedzi, modele te nie są w stanie zupełnie uniknąć "wycieków" treści chronionych prawem autorskim. To zjawisko wynika z samej natury treści wykorzystanych do treningu. Mimo wszystko, próby wyciągnięcia z AI treści objętych prawami autorskimi jest trudne: ChatGPT nie jest łatwo "zmusić" do tego, aby powiedział coś, co może zwrócić uwagę na jego wytrenowanie za pomocą m. in. Harry'ego Pottera. Naukowcy mówią wprost: celowe prowokowanie modeli do "ujawniania" chronionych treści, jest naprawdę problematyczne. Wychodzi więc na to, że da się, ale nie jest to łatwe. Mimo wszystko jednak - da się udowodnić, że duże modele językowe używają m. in. książek objętych prawami autorskimi. OpenAI nie zapłacił za to nawet centa.
To badanie rzuca światło na nieuporządkowane jak na razie relacje między sztuczną inteligencją a prawami autorskimi. Wyzwania związane z tym tematem stają się coraz bardziej widoczne, a dalsze badania mogą przyczynić się do opracowania lepszych strategii zarządzania prawami autorskimi w kontekście rozwijających się modeli językowych. Od rozwoju nie uciekniemy, ale trzeba pamiętać o tym, że przecież autorzy nie mogą cierpieć na wykorzystywaniu ich pracy do trenowania modeli. Powinni zostać wynagrodzeni za to, że użyło się danych, które należą generalnie do nich, prawda?
Jak na razie, dzieje się w tym zakresie typowa wolna amerykanka. Regulacje dopiero nadchodzą i niestety, prawo nie nadąża za rozwojem nowych technologii. Co więcej - trenowanie to jedno. Badanie będące przedmiotem tego artykułu wskazuje na to, że można doprowadzić także do "wycieku" treści chronionych prawami autorskimi. Ciekaw jestem, jak szybko uda się uregulować te kwestie...
Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu