Co zrobić, by ChatGPT nie miał dostępu do naszej strony internetowej? Wystarczą dwie linijki kodu, by najpopularniejszy chatbot nie miał możliwości przeglądania udostępnianych w sieci treści.
ChatGPT może być źródłem cennych informacji i narzędziem, które pomaga w codziennym życiu. Ale by tego dokonać, musi się cały czas uczyć, ewoluować i dostosowywać do zmieniającej się rzeczywistości. ChatGPT to np. świetne narzędzie, które może szybko podsumować informacje zawarte na popularnych stronach internetowych, przygotować ich podsumowanie, a nawet stworzyć odrębny tekst na podstawie artykułów podawanych w prosty sposób - wystarczy link do konkretnego wpisu.
Jednak nie wszystkie strony chcą, by ChatGPT mógł je przeglądać, pobierać tekst, uczyć się na nim i go przetwarzać. Wystarczy kilka prób z wykorzystaniem chatbota, by przekonać się, że już całkiem duża grupa najpopularniejszych serwisów - nie tylko technologicznych - blokuje dostęp do robotów indeksujących wykorzystywanych przez OpenAI. Chat zwraca informację, że nie może przejrzeć zawartości strony. Firma jednak zachęca, by być bardziej otwartym:
Strony internetowe indeksowane za pomocą agenta użytkownika GPTBot mogą być potencjalnie wykorzystywane do ulepszania przyszłych modeli i są filtrowane w celu usunięcia źródeł, które wymagają dostępu do paywalla, są znane głównie z agregowania danych osobowych (PII) lub zawierają tekst, który narusza nasze zasady. Umożliwienie GPTBot dostępu do witryny może pomóc modelom AI stać się bardziej dokładnymi i poprawić ich ogólne możliwości i bezpieczeństwo.
Blokowanie dostępu do stron? ChatGPT nie sprawdzi, o czym piszesz
Jednak otwarty dostęp dla robota to także potencjalne wystawianie zawartości stron internetowych i pełne ich oddanie do późniejszego wykorzystania lub przetworzenia. Jak więc zablokować dostęp do treści na stronach internetowych i ograniczyć dostęp robotom GPTBot? To bardzo proste. Wystarczy skorzystać z dostępnych już rozwiązań w postaci pliku robots.txt
wykorzystywanego głównie do zarządzania ruchem robotów indeksujących w witrynie i zazwyczaj stosuje się go do wykluczenia pliku z indeksu Google w zależności od jego typu. Plik robots.txt
wykorzystywany na stronach internetowych (HTML, PDF lub w innych formatach niemultimedialnych możliwych do odczytania przez Google) pomaga w zarządzaniu ruchem związanym z indeksowaniem w taki sposób, by serwer nie został przeciążony żądaniami robota Google albo żeby zapobiec indeksowaniu nieistotnych lub podobnych stron w witrynie.
Chcąc zablokować robotom indeksującym GPTBot dostęp do naszej strony internetowej do pliku robots.txt wystarczy dopisać dwie linijki:
User-agent: GPTBot
Disallow: /
Oczywiście uprawnienia te możemy dostosować do naszych potrzeb, wykluczając lub pozwalać na dostęp do tylko niektórych zasobów. Przykładowo:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Nie jest to jakieś magiczne kodowanie, na które wpadli ci, którzy chcą bronić się przed ChatGPT i za wszelką cenę starają się zablokować dostęp do treści udostępnianych na swoich stronach. To rozwiązanie zaproponowane jest przez samo Open AI - firmę odpowiedzialną za opracowanie i rozwijanie najpopularniejszego chatbota. Wszystkie informacje na ten temat udostępnione są na stronach pomocy technicznej związanej z GPTBot oraz OpenAI API z których mogą korzystać deweloperzy i inne firmy. API OpenAI można zastosować do praktycznie każdego zadania. Firma oferuje cały szereg modeli o różnych możliwościach i cenach, a także możliwość dostosowywania modeli niestandardowych. Pełną dokumentację Open AI można znaleźć na stronach platform.openai.com/docs/introduction.
Stock image from Depositphotos
Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu