Model bahasa besar atau large language model (LLM) yang berada di balik AI generatif seperti ChatGPT, Bing, dan Bard diadu mekanik.
Adu mekanik ini dilakukan di platform benchmarking untuk LLM, Chatbot Arena. Platform ini merupakan eksperimen crowdsourcing yang dilakukan oleh sebuah organisasi yang bernama Large Model Systems (LMSYS) Organization . Di atas platform Chatbot Arena, pengguna dapat membandingkan berbagai LLM, termasuk GPT-4 (OpenAI), PaLM (Google), Meta (LLaMA), Claude (Anthropic), dan model-model lainnya yang dibangun menggunakan API.
Di Chatbot Arena, user dipersilakan menuliskan prompt atau permintaan, dan dua model anonim itu akan merespons secara bersamaan. Kemudian, setelah user memilih model yang terbaik berdasarkan respons tersebut, eksperimen memberi tahu model LLM apa yang tadi dipilih user. User juga dapat membandingkan dengan menyandingkan berbagai LLM dan melihat model yang paling banyak dipilih di papan peringkat/leaderboard.
Sistem pemeringkat di Chatbot Arena ini menggunakan sistem Elo rating yang biasa digunakan dalam pertandingan catur dan permainan kompetitif lainnya. Sistem ini menghitung tingkat keterampilan relatif dari pemain, atau dalam hal ini model AI/LLM. Platform ini juga menghitung skor MT-Bench, yaitu penilaian berdasarkan satu set pertanyaan multi-putaran dan penilaian respons oleh GPT-4.
LMSYS sendiri merupakan kumpulan kelompok peneliti dari UC Berkeley, Carnegie Mellon University, UC San Diego dari AS, dan Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) dari UEA. Menurut organisasi ini, membandingkan atau benchmarking asisten LLM terbilang sangat menantang karena masalahnya (yang ditulis user) bisa bersifat terbuka (open-ended), yang artinya tidak bisa dijawab dengan “ya” atau “tidak”.
Di blognya, LMSYS juga mengatakan bahwa menulis program untuk mengevaluasi kualitas respons LLM secara otomatis sangatlah sulit. Sejauh ini, lebih dari 40.000 suara telah diberikan dan ada 31 LLM yang “bertarung” di Chatbot Arena
Sampai saat tulisan ini dibuat, adu mekanik ini dimenangkan oleh GPT-4, model bahasa besar yang dikembangkan oleh OpenAI, dengan Elo rating 1227. Di tempat ke-2 dan ke-3 diduduki oleh Claude-v1 (1178) dan Claude Instant (1156) yang dikembangkan oleh Anthropic.
Di tempat ke-4 ada GPT-3.5 Turbo dari OpenAI dengan Elo rating 1130. Dan di posisi kelima dengan rating 1065, ada model Guanaco-33b berbasis model AI milik Meta, LLaMA, yang dikembangkan oleh para peneliti dari University of Washington.
Sementara model milik Google, PaLM-Chat-Bison-00, ada di peringkat delapan dengan nilai Elo rating 1038, dan model milik Meta, LLaMA 13B, berada di peringkat 20 dengan Elo rating 826.
Inilah 10 besar model AI di Chatbot Arena:
1. GPT-4; Elo rating 1227; MT-Bench (score) 8,99
2. Claude-v1; Elo rating 1178; MT-Bench (score) 7,9