xAI merilis model Grok-2 versi beta yang menghadirkan peningkatan kinerja dari versi sebelumnya, yaitu Grok-1.5, dan kemampuan image generation.
Grok-2 datang dalam dua jenis model: Grok-2 dan Grok-2 mini. Keduanya sudah bisa dicoba oleh para pengguna Grok di platform ????.
xAI juga menjanjikan keduanya akan tersedia bagi para developer melalui enterprise API, di bulan Agustus ini juga.
Menurut keterangan di blog xAI, Grok-2 mengusung kemampuan tercanggih untuk chat, coding, dan reasoning. Sementara Grok-2 mini lebih ringan, tapi kemampuannya setara Grok-2.
Sementara fitur image generation berbasis prompt dari Grok didukung oleh model AI Flux 1 dari Black Forest Lab. Dengan fitur ini, pengguna dapat membuat dan mempublikasikan gambar langsung ke platform sosial ????.
Namun sejumlah gambar hasil coba-coba para pengguna memantik pendapat bahwa model terbaru ini tidak dibekali batasan yang memadai sehingga berpotensi disalahgunakan. Misalnya, ada gambar buatan Grok yang menampilkan mantan presiden AS, Donald Trump menembak dengan Revolver. Ada pula gambar mantan presiden AS lainnya, George W. Bush sedang mengonsumsi kokain.
Yang lebih menimbulkan kekhawatiran adalah tidak ada indikasi atau peringatan yang menginformasikan bahwa gambar tersebut adalah hasil dari teknologi AI.
Peningkatan Signifikan dari Grok-1.5
Versi awal Grok-2, yang menggunakan nama “sus-column-r” sudah diuji di LMSYS leaderboard. Dan kinerja model terbaru xAI ini bisa mengungguli Claude 3.5 Sonnet dan GPT-4-Turbo untuk keseluruhan skor Elo, sampai saat tulisan ini dibuat. LMSYS sendiri merupakan platform benchmarking yang kompetitif untuk model bahasa.
Dalam blognya, xAI juga menjelaskan proses yang kurang lebih sama dengan LMSYS untuk mengevaluasi Grok-2. Para AI Tutor berinteraksi dengan model AI melalui berbagai tugas yang mencerminkan interaksi Grok di situasi yang nyata.
Para tutor diberikan dua respons Grok dan memilih respons yang lebih baik berdasarkan kriteria tertentu selaras dengan guideline xAI. Dikutip dari blog xAI, “Kami fokus pada tujuan mengevaluasi kemampuan model di dua area: mengikuti instruksi (following instructions) dan memberikan informasi yang akurat dan faktual (providing accurate, factual information).”
Menurut xAI, kemampuan Grok-2 meningkat dalam hal penalaran terhadap konten yang diambil (retrieved content) dan penggunaannya dalam berbagai alat. Grok-2 menunjukkan kemampuan yang lebih baik dalam mengidentifikasi informasi yang hilang, menalar urutan kejadian, dan membuang postingan yang tidak relevan.
Penulis | : | Liana Threestayanti |
Editor | : | Liana Threestayanti |
KOMENTAR