Find Us On Social Media :

xAI: Kemampuan Grok-1 Belum Saingi GPT-4, Tapi Lebih Efisien

By Liana Threestayanti, Senin, 6 November 2023 | 13:47 WIB

Seperti diberitakan sebelumnya, perusahaan AI besutan Elon Musk, xAI telah merilis chatbot AI mirip ChatGPT bernama Grok. Seperti apa kinerja Grok?

MMLU: Pertanyaan pilihan ganda multidisiplin, (Hendrycks dkk. 2021), memberikan 5 contoh dalam konteks.

HumanEval: Tugas penyelesaian kode Python, (Chen et al. 2021), zero-shot dievaluasi untuk pass@1

MATH: Soal matematika tingkat sekolah menengah pertama dan sekolah menengah atas yang ditulis dalam LaTeX, (Hendrycks et al. 2021), diminta dengan prompt atau perintah 4 langkah yang tetap.

Dalam evaluasi tersebut, Grok-1 mencatatkan skor 63.2% pada tugas coding HumanEval dan 73% pada MMLU. Dengan pencapaian tersebut, Grok-1 dapat mengungguli GPT-3.5 dan LLaMa 2, tapi belum bisa menyamai performa GPT-4

Namun xAI mengeklaim, dalam waktu singkat, mereka berhasil meningkatkan performa Grok-1 jika dibandingkan dengan Grok-0.

Untuk benchmark yang menggunakan soal cerita matematika tingkat sekolah menengah, GSM8k (Cobbe et al. 2021), Grok-1 mencapai 62,9% atau lebih tinggi dari GPT-3.5 dan LLaMa 2, tapi hasil itu lebih rendah dari Palm 2, Claude 2, dan GPT-4.  

Selain itu, xAI juga melakukan benchmarking terhadap Grok-1, Claude 2 dan GPT-4 menggunakan soal ujian akhir matematika tingkat sekolah menengah atas Hungaria tahun 2023. Hasilnya, Grok-1 meraih grade C (59%), melampaui Claude 2 (55%). Sementara GPT-4 meraih grade B dengan 68%.

Semua model dievaluasi pada suhu 0,1 dan menggunakan perintah (prompt) yang sama. Menurut xAI, eksperimen ini merupakan real-life test terhadap kumpulan data yang belum pernah disesuaikan untuk model Grok. 

Hasil-hasil tersebut menunjukkan bahwa Grok-1 sudah lebih mumpuni dari pada GPT-3.5 OpenAI, tapi beum sekuat model terbaru GPT-4. Namun xAI mengeklaim bahwa meskipun Grok-1 dilatih dengan jumlah data yang lebih sedikit tapi dapat mengungguli model yang dilatih menggunakan data dalam jumlah besar dan juga memerlukan kemampuan komputasi yang lebih tinggi.

Grok akan tersedia di X Premium Plus seharga US$16 atau Rp 249 per bulan. Namun untuk saat ini, chatbot AI ini hanya ditawarkan kepada sejumlah pengguna terpilih di Amerika Serikat.

Baca juga: Saingi ChatGPT, xAI Milik Elon Musk Rilis Model AI Bernama Grok

Baca juga: Kini Chatbot AI ChatGPT Dapat Merangkum Dokumen dan Bikin Grafik