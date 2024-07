O kwestii trenowania algorytmów AI na podstawie treści bez zgody ich autorów rozprawia się od dawna. Podczas największego szaleństwa na generatory obrazków wielokrotnie udowadniano kradzież, gdy te... "wypluwały" grafiki z fragmentami znaków wodnych, którymi twórcy prac chcieli zabezpieczać swoje dzieła.

Jeżeli zaś chodzi o treści pisane - sprawa jest zdecydowanie bardziej skomplikowana. Wiadomo że najwięksi tego świata płacą niemałe pieniądze za dostęp do przepastnych baz wiedzy. Apple ma starać się o kontrakt u jednych z największych i najważniejszych wydawców na świecie. Google ma pod skrzydłami Reddita, co doprowadza do kuriozalnych sytuacji (zobacz: Kompromitacja korporacji. Rozwiązanie za miliardy dolarów każe... przyklejać ser na klej). Teraz jednak świat obiegły wieści, jakoby Apple i wiele innych firm bez zgody autorów wykorzystywało ich treści do trenowania autorskich algorytmów.

Apple, Nvidia i inni oskarżeni o szkolenie algorytmów na bazie materiałów YouTuberów

Z najnowszego raportu Proof News wynika, że jedne z największych firm technologicznych (wymieniane są m.in. Apple, Nvidia, Anthropic, Salesforce) bez zgody twórców wykorzystywały treści tworzone przez jedne z największych gwiazd YouTube'a. Wśród ofiar wymieniani są — Marquees Brownlee (znany jako MKBHD), MrBeast, PewDiePie, Stephen Colbert czy Jimmy Kimmel. Firmy miały rzekomo pobierać transkrypcję ich materiałów (mowa o napisach z ponad 170 tys. materiałów), a następnie na ich podstawie algorytmy miały uczyć się nowych sztuczek. W serwisie Wired czytamy:

Dochodzenie przeprowadzone przez Proof News wykazało, że niektóre z najbogatszych firm zajmujących się sztuczną inteligencją na świecie wykorzystywały materiały z tysięcy filmów na YouTube do trenowania sztucznej inteligencji. Firmy robiły to pomimo zasad YouTube zabraniających pozyskiwania materiałów z platformy bez pozwolenia. Nasze dochodzenie wykazało, że napisy ze 173 536 filmów z YouTube, pobrane z ponad 48 000 kanałów, zostały wykorzystane przez firmy z Doliny Krzemowej, w tym Anthropic, Nvidia, Apple i Salesforce (...) Zgodnie z artykułem badawczym opublikowanym przez EleutherAI, zbiór danych jest częścią kompilacji wydanej przez organizację non-profit o nazwie Pile [...].

Większość zbiorów danych Pile jest dostępna i otwarta dla każdego w Internecie, kto ma wystarczająco dużo miejsca i mocy obliczeniowej, aby uzyskać do nich dostęp. Naukowcy i inni programiści spoza Big Tech korzystali ze zbioru danych, ale nie byli jedynymi.

Apple, Nvidia i Salesforce - firmy wyceniane na setki miliardów i biliony dolarów - opisują w swoich artykułach naukowych i postach, w jaki sposób wykorzystały Pile do trenowania sztucznej inteligencji. Dokumenty pokazują również, że Apple wykorzystało Pile do trenowania OpenELM, głośnego modelu wydanego w kwietniu, na kilka tygodni przed tym, jak firma ujawniła, że doda nowe możliwości sztucznej inteligencji do iPhone'ów i MacBooków.

Po publikacji artykułów z oskarżeniami jednych z największych firm technologicznych na świecie, wszyscy oczekują reakcji z ich strony. Póki co jednak ani wywołanie do tablicy — ani bezpośrednie zapytanie o te kwestię — na nic się nie zdało. Apple i spółka milczą jak zaklęci. Patrząc jednak na to, że to nie same firmy, a osoby trzecie (EleutherAI) złamały zasady obowiązujące na YouTube - prawdopodobnie to właśnie na nie zostanie zrzucona wina. Mimo wszystko - nie wygląda to dobrze.