OpenAI meluncurkan web crawler yang dinamai GPTBot untuk meningkatkan kemampuan model-model artificial intelligence (AI), seperti GPT-4.
Web crawler ini bertugas menjelajahi web untuk mengumpulkan data-data yang tersedia secara publik. Data-data ini nantinya akan digunakan untuk melatih model-model AI milik OpenAI, termasuk GPT-5 yang sedang dinanti-nanti. Seperti kita ketahui, data merupakan sumber daya penting untuk mengasah kecerdasan model-model AI.
Bot ini dapat dikenali melalui user agent token dan full user-agent string-nya.
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot
Mengantisipasi potensi pelanggaran privasi, OpenAI menyatakan bahwa halaman web yang didatangi GPTBot akan melalui tahap filtering untuk menghapus sumber-sumber yang memerlukan akses paywall, mengumpulkan informasi identitas pribadi (PII), atau memiliki teks yang melanggar kebijakan OpenAI.
Dengan mengizinkan GPTBot mengakses website kita, menurut OpenAI, kita ikut berkontribusi dalam pengumpulan data yang akan meningkatkan ekosistem AI secara keseluruhan.
Cara Membatasi Akses
Namun jika kita tidak ingin berpartisipasi, OpenAI juga sudah memberikan cara-cara yang dapat digunakan oleh para admin web untuk membatasi atau menutup akses GPTBot.
Jika ingin membatasi GPTBot dari situsnya, pemilik website dapat mengubah file robots.txt.
Untuk menutup akses GPTBot ke seluruh website, pada file robots.txt, tambahkan ini:
User-agent: GPTBot