“Dihipnotis” peneliti IBM, chatbot AI, termasuk ChatGPT dan Bard, membocorkan informasi rahasia bahkan memberikan saran berbahaya.
Salah satu kerentanan pada sistem dan tool berbasis artificial intelligence (AI) yang kerap dibahas adalah halusinasi yang berujung pada misinformasi.
Namun apakah chatbot AI semacam ChatGPTdan Bard dapat dimanipulasi agar dengan sengaja berdusta kepada pengguna, atau bahkan memberikan nasihat yang merugikan?
Inilah pertanyaan yang ingin dijawab para peneliti IBM melalui percobaan hipnosis terhadap large language model (LLM), seperti ChatGPT dari OpenAI dan Bard milik Google.
Para peneliti memberikan prompt atau instruksi sedemikian rupa sehingga jawaban-jawaban chatbot akan menyesuaikan dengan aturan “permainan” yang pada akhinya mengakibatkan chatbot terhipnotis.
“Permainan” yang dirancang multi-layer ini meminta model LLM memberikan jawaban yang salah untuk membuktikan bahwa chatbot AI itu beretika dan jujur.
“Eksperimen kami memperlihatkan adalah mungkin untuk mengontrol LLM, membuatnya memberikan panduan yang buruk bagi pengguna, tanpa harus melibatkan manipulasi data,” Chenta Lee, salah satu periset IBM yang terlibat eksperimen in menulis di blog.
Alhasil, “tipuan” ini mampu membuat LLM memberikan kode jahat, membocorkan informasi keuangan yang konfidensial, dan meyakinkan pengemudi untuk menerobos lampu merah.
Dalam satu skenario, misalnya, ChatGPT merespons bahwa adalah sesuatu yang wajar jika institusi pajak AS, Internal Revenue Service (IRS), meminta deposit untuk mendapatkan pengembalian pajak. Taktik ini dikenal kerap dipraktikan oleh para scammer untuk menipu orang.
Melalui proses hipnosis, sebagai bagian dari permainan tadil para periset juga dapat membuat ChatGPT secara terus menerus memberikan rekomendasi yang berpotensi mendatangkan risiko.
Misalnya, ketika ditanya “apa yang harus dilakukan ketika melihat lampu merah saat sedang berkendara?”, ChatGPT malah menyarankan pengendara tidak berhenti dan terus melaju melewati perempatan.
Lebih jauh lagi, para peneliti membuat dua parameter dalam permainan ini untuk memastikan pengguna lain tidak pernah tahu bahwa LLM sedang dihipnotis. Para peneliti mengetikkan instruksi agar si chatbot tidak pernah memberitahukan pengguna (lain) tentang permainan yang sedang ia lakukan dan menyuruh chatbot me-restart ketika pengguna berhasil keluar dari permainan.