Penelitian IBM bersama sejumlah perguruan tinggi terkemuka menawarkan metode untuk meningkatkan akurasi fakta pada model bahasa besar atau LLM.
Euforia artificial intelligence (AI) mulai mereda dan orang pun mulai memusatkan perhatian pada kelebihan dan kekurangannya.
Akurasi fakta adalah salah satu tantangan di era digital. Akurasi dan kualitas output juga menjadi tantangan besar bagi model bahasa besar (Large Language Model/LLM), seperti GPT.
Tak seperti halusinasi yang sepenuhnya fiktif dan langsung dikategorikan “tidak benar”, ketidak akuratan data, bias, dan referensi yang menyesatkan adalah kesalahan-kesalahan yang justru lebih sulit dideteksi.
Penelitian yang dilakukan oleh para peneliti dari IBM, MIT, Boston University, dan Monash University di Indonesia, menawarkan metode untuk mengatasi tantangan itu.
Dalam abstraksi makalah penelitian tersebut, para peneliti menyebutkan persoalan pada LLM adalah keterbatasan model bahasa dalam memahami dunia nyata.
“Meskipun model bahasa tampak berpengetahuan, sebenarnya mereka hanya menghasilkan prediksi kata dan frasa berdasarkan data yang melatih model, bukan pemahaman yang sebenarnya, seperti yang dimiliki oleh manusia,” tulis para peneliti.
Jadi, pengetahuan yang dihasilkan oleh model ini lebih bersifat ilusi atau tampak saja, tanpa pemahaman yang mendalam atau konsisten tentang dunia.
Masalah ini dinilai cukup serius. Sebuah makalah dari Oxford Internet Institute mengemukakan bahwa teknologi AI cenderung menghasilkan output yang ceroboh atau kurang akurat. Hal ini, disebut Oxford Internet Institute, dapat membahayakan sains, pendidikan, dan bahkan mungkin demokrasi.
Salah satu solusi yang ditawarkan para peneliti adalah retrieval-augmented generation (RAG), yang meningkatkan LLM dengan memberinya data khusus berkualitas tinggi.
Namun metode ini membutuhkan sumber daya komputasi dan tenaga manusia dalam jumlah besar sehingga dinilai tidak praktis untuk general LLM.
Sebagai alternatif, para peneliti menawarkan metode deductive closure training (DCT). Dengan teknik ini, LLM menilai sendiri akurasi outputnya.
Dalam mode tanpa pengawasan manusia, LLM diberi "pernyataan awal" yang digunakan untuk menghasilkan serangkaian pernyataan lain yang diinferensikan dari pernyataan awal tersebut. Beberapa pernyataan mungkin benar, dan yang lainnya tidak benar. Model LLM kemudian menganalisis kemungkinan kebenaran dari setiap pernyataan dengan memetakan grafik konsistensinya.
Saat di bawah pengawasan manusia, model ini juga bisa diberi pernyataan yang sudah diketahui benar untuk memandu proses tersebut.
Hasil penelitian menunjukkan adanya peningkatan 3-26% dalam hal verifikasi fakta dan akurasi text generation oleh model bahasa dengan DCT yang disupervisi manusia. Sedangkan DCT yang sepenuhnya tidak disupervisi meningkatkan akurasi verifikasi 12%.
Metode lain yang ditawarkan untuk meningkatkan LLM lebih jauh adalah self-specialization. Metode ini pada intinya mengubah model spesialis menjadi generalis dengan memberikan materi atau data dari area pengetahuan yang lebih spesifik. Misalnya, model diberikan dataset genetika dan diminta untuk menghasilkan laporan tentang varian dan mutasi genetik yang terdapat di dalamnya.
Menurut IBM, dengan ditanami sedikit “benih,” model akan menghasilkan instruksi dan respons baru dengan memanfaatkan keahlian laten dalam data latihan dan menggunakan RAG untuk mengambil data dari database eksternal saat dibutuhkan untuk memastikan akurasi.
Metode ini mungkin mirip RAG, tapi menurut para peneliti, model-model spesialis ini digunakan, melalui API, ketika dibutuhkan saja.
Di sisi lain, Mark Stockley, co-presenter podcast “The AI Fix” bersama Graham Cluley, mengatakan banyak orang salah memahami fungsi LLMs. Menurutnya, model bahasa memang unggul dalam tugas-tugas tertentu, tetapi mereka tidak dirancang, dan tidak seharusnya diandalkan, sebagai mesin pemeriksa fakta atau kebenaran yang sederhana dan akurat.
Baca juga: IBM Watsonx Bantu Dua Startup Indonesia Kembangkan Solusi Generative AI
Baca juga: Penggunaan AI Terbukti Tingkatkan Penjualan dan Kinerja Sales