xAI: Kemampuan Grok-1 Belum Saingi GPT-4, Tapi Lebih Efisien

Seperti diberitakan sebelumnya, perusahaan AI besutan Elon Musk, xAI telah merilis chatbot AI mirip ChatGPT bernama Grok. Seperti apa kinerja Grok?

Di situs webnya, xAI menulis, Grok adalah artificial intelligence (AI) yang dikembangkan sebagai “Hitchhiker Guide to The Galaxy” sehingga memiliki kemampuan untuk menjawab pertanyaan tentang hampir semua hal.

Kelebihan Grok yang digadang-gadang Elon Musk adalah memiliki pengetahuan real time yang diperolehnya melalui platform X (sebelumnya bernama Twitter).

Selain cerdas, menurut Musk, Grok juga sengaja dibuat memiliki sedikit "jiwa pemberontak" tapi humoris. Bahkan xAI menyatakan, chatbot AI-nya bersedia menjawab pertanyaan yang sedikit “pedas” yang umumnya tidak akan dijawab oleh sebagian besar sistem AI lainnya.

Pada situs web-nya, xAI menuliskan dua tujuan pengembangan Grok. Pertama, chatbot AI ini akan berperan sebagai tool yang memberikan manfaat maksimal bagi kemanusiaan. “Kami percaya, adalah penting untuk mendesain tool AI yang bermanfaat bagi orang dengan berbagai latar belakang dan pandangan politik. Kami pun ingin memberdayakan pengguna kami dengan tool AI, sesuai dengan hukum,” tulis xAI.

Tidak hanya untuk membantu masyarakat secara umum, Grok juga dikembangkan untuk mendukung riset dan inovasi. “Kami ingin Grok juga berperan sebagai asisten riset yang hebat bagi siapa saja, membantu mereka secara cepat mengakses informasi yang releven, memroses data, dan menghasilkan ide-ide baru,” tulis xAI.

Ungguli GPT-3.5

Hasil benchmark Grok-1, unggul dari GPT-3.5

Yang menarik adalah model bahasa besar (large language model/LLM) yang menopang Grok, yaitu Grok-1, dikembangkan dalam waktu empat bulan saja. Setelah resmi diluncurkan Elon Musk pada bulan Maret lalu, xAI melatih purwarupa LLM-nya (Grok-0) dengan 33 miliar parameter. Iterasi pertama ini disebut xAI memiliki kemampuan yang mirip LLaMA 2 (70 miliar parameter) pada benchmark standar model bahasa, tapi sumber daya yang digunakan lebih sedikit (hanya separuh dari LLaMA 2).

Menurut xAI, peningkatan yang signifikan terjadi dalam dua bulan terakhir untuk kemampuan penalaran (reasoning) dan coding. Kemajuan ini yang kemudian menghasilkan Grok-1 yang mampu meraih skor benchmark 63,2% untuk tugas coding HumanEval dan 73% untuk MMLU.

xAI juga membeberkan hasil serangkaian evaluasi yang dilakukan terhadap Grok-1 menggunakan beberapa benchmark machine learning standar yang dirancang untuk menilai kemampuan matematika dan nalar (reasoning).

GSM8k: Soal kata matematika tingkat sekolah menengah, (Cobbe dkk. 2021), menggunakan perintah chain-of-thought..

MMLU: Pertanyaan pilihan ganda multidisiplin, (Hendrycks dkk. 2021), memberikan 5 contoh dalam konteks.

HumanEval: Tugas penyelesaian kode Python, (Chen et al. 2021), zero-shot dievaluasi untuk pass@1

MATH: Soal matematika tingkat sekolah menengah pertama dan sekolah menengah atas yang ditulis dalam LaTeX, (Hendrycks et al. 2021), diminta dengan prompt atau perintah 4 langkah yang tetap.

Dalam evaluasi tersebut, Grok-1 mencatatkan skor 63.2% pada tugas coding HumanEval dan 73% pada MMLU. Dengan pencapaian tersebut, Grok-1 dapat mengungguli GPT-3.5 dan LLaMa 2, tapi belum bisa menyamai performa GPT-4.

Namun xAI mengeklaim, dalam waktu singkat, mereka berhasil meningkatkan performa Grok-1 jika dibandingkan dengan Grok-0.

Untuk benchmark yang menggunakan soal cerita matematika tingkat sekolah menengah, GSM8k (Cobbe et al. 2021), Grok-1 mencapai 62,9% atau lebih tinggi dari GPT-3.5 dan LLaMa 2, tapi hasil itu lebih rendah dari Palm 2, Claude 2, dan GPT-4.

Selain itu, xAI juga melakukan benchmarking terhadap Grok-1, Claude 2 dan GPT-4 menggunakan soal ujian akhir matematika tingkat sekolah menengah atas Hungaria tahun 2023. Hasilnya, Grok-1 meraih grade C (59%), melampaui Claude 2 (55%). Sementara GPT-4 meraih grade B dengan 68%.

Semua model dievaluasi pada suhu 0,1 dan menggunakan perintah (prompt) yang sama. Menurut xAI, eksperimen ini merupakan real-life test terhadap kumpulan data yang belum pernah disesuaikan untuk model Grok.

Hasil-hasil tersebut menunjukkan bahwa Grok-1 sudah lebih mumpuni dari pada GPT-3.5 OpenAI, tapi beum sekuat model terbaru GPT-4. Namun xAI mengeklaim bahwa meskipun Grok-1 dilatih dengan jumlah data yang lebih sedikit tapi dapat mengungguli model yang dilatih menggunakan data dalam jumlah besar dan juga memerlukan kemampuan komputasi yang lebih tinggi.

Grok akan tersedia di X Premium Plus seharga US$16 atau Rp 249 per bulan. Namun untuk saat ini, chatbot AI ini hanya ditawarkan kepada sejumlah pengguna terpilih di Amerika Serikat.

Penulis	:	Liana Threestayanti
Editor	:	Liana Threestayanti

xAI: Kemampuan Grok-1 Belum Saingi GPT-4, Tapi Lebih Efisien

AI

Xai

Artificial Intelligence (AI)

GPT-4

GPT

Grok

Artikel Terkait

Nih! Keuntungan yang Bisa Didapatkan Bisnis Kecil Kalau Pakai ChatGPT

Bos ChatGPT: Otomatisasi AI Bakal Bikin Banyak Pengangguran