OpenAI meluncurkan web crawler yang dinamai GPTBot untuk meningkatkan kemampuan model-model artificial intelligence (AI), seperti GPT-4.
Web crawler ini bertugas menjelajahi web untuk mengumpulkan data-data yang tersedia secara publik. Data-data ini nantinya akan digunakan untuk melatih model-model AI milik OpenAI, termasuk GPT-5 yang sedang dinanti-nanti. Seperti kita ketahui, data merupakan sumber daya penting untuk mengasah kecerdasan model-model AI.
Bot ini dapat dikenali melalui user agent token dan full user-agent string-nya.
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot
Mengantisipasi potensi pelanggaran privasi, OpenAI menyatakan bahwa halaman web yang didatangi GPTBot akan melalui tahap filtering untuk menghapus sumber-sumber yang memerlukan akses paywall, mengumpulkan informasi identitas pribadi (PII), atau memiliki teks yang melanggar kebijakan OpenAI.
Dengan mengizinkan GPTBot mengakses website kita, menurut OpenAI, kita ikut berkontribusi dalam pengumpulan data yang akan meningkatkan ekosistem AI secara keseluruhan.
Cara Membatasi Akses
Namun jika kita tidak ingin berpartisipasi, OpenAI juga sudah memberikan cara-cara yang dapat digunakan oleh para admin web untuk membatasi atau menutup akses GPTBot.
Jika ingin membatasi GPTBot dari situsnya, pemilik website dapat mengubah file robots.txt.
Untuk menutup akses GPTBot ke seluruh website, pada file robots.txt, tambahkan ini:
User-agent: GPTBot
Disallow: /
Jika ingin memberikan akses parsial, kita dapat menyesuaikan direktori yang dapat diakses olehb GPTBot. Tambahkan baris berikut ke file robots.txt.
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Perdebatan Seputar GPTBot dan Data
Peluncuran GPTBot ini sontak memicu perdebatan, khususnya mengenai etika dan legalitas penggunaan data dari web ini untuk melatih sistem AI yang bersifat proprietary.
Ada kekhawatiran yang signifikan mengenai penggunaan konten berhak cipta tanpa atribusi. Sebagai informasi, ChatGPT saat ini tidak mengutip sumber.
Ada pula pertanyaan seputar cara GPTBot menangani gambar, video, musik, dan media berlisensi lainnya yang ditemukan di situs web. Jika media itu pada akhirnya digunakan dalam pelatihan model, hal itu bisa dianggap sebagai pelanggaran hak cipta.
Di sisi lain, ada sebagian yang berpendapat bahwa OpenAI berhak menggunakan data publik di web secara bebas. Pendapat ini menyamakan model AI dengan seseorang yang belajar dengan memanfaatkan konten online.
Argumentasi lain mengatakan bahwa OpenAI harus membagikan keuntungannya jika pengembang ChatGPT ini melakukan monetisasi data-data dari web itu untuk keuntungan komersial.
Baca juga: Google Bard Wajib Ketar-ketir, OpenAI Daftarkan Merk Dagang ChatGPT 5
Baca juga: ChatGPT Kenalkan Enam Fitur Baru untuk Tingkatkan Pengalaman Pengguna
Penulis | : | Liana Threestayanti |
Editor | : | Liana Threestayanti |
KOMENTAR