xAI merilis model Grok-2 versi beta yang menghadirkan peningkatan kinerja dari versi sebelumnya, yaitu Grok-1.5, dan kemampuan image generation.
Grok-2 datang dalam dua jenis model: Grok-2 dan Grok-2 mini. Keduanya sudah bisa dicoba oleh para pengguna Grok di platform ????.
xAI juga menjanjikan keduanya akan tersedia bagi para developer melalui enterprise API, di bulan Agustus ini juga.
Menurut keterangan di blog xAI, Grok-2 mengusung kemampuan tercanggih untuk chat, coding, dan reasoning. Sementara Grok-2 mini lebih ringan, tapi kemampuannya setara Grok-2.
Sementara fitur image generation berbasis prompt dari Grok didukung oleh model AI Flux 1 dari Black Forest Lab. Dengan fitur ini, pengguna dapat membuat dan mempublikasikan gambar langsung ke platform sosial ????.
Namun sejumlah gambar hasil coba-coba para pengguna memantik pendapat bahwa model terbaru ini tidak dibekali batasan yang memadai sehingga berpotensi disalahgunakan. Misalnya, ada gambar buatan Grok yang menampilkan mantan presiden AS, Donald Trump menembak dengan Revolver. Ada pula gambar mantan presiden AS lainnya, George W. Bush sedang mengonsumsi kokain.
Yang lebih menimbulkan kekhawatiran adalah tidak ada indikasi atau peringatan yang menginformasikan bahwa gambar tersebut adalah hasil dari teknologi AI.
Peningkatan Signifikan dari Grok-1.5
Versi awal Grok-2, yang menggunakan nama “sus-column-r” sudah diuji di LMSYS leaderboard. Dan kinerja model terbaru xAI ini bisa mengungguli Claude 3.5 Sonnet dan GPT-4-Turbo untuk keseluruhan skor Elo, sampai saat tulisan ini dibuat. LMSYS sendiri merupakan platform benchmarking yang kompetitif untuk model bahasa.
Dalam blognya, xAI juga menjelaskan proses yang kurang lebih sama dengan LMSYS untuk mengevaluasi Grok-2. Para AI Tutor berinteraksi dengan model AI melalui berbagai tugas yang mencerminkan interaksi Grok di situasi yang nyata.
Para tutor diberikan dua respons Grok dan memilih respons yang lebih baik berdasarkan kriteria tertentu selaras dengan guideline xAI. Dikutip dari blog xAI, “Kami fokus pada tujuan mengevaluasi kemampuan model di dua area: mengikuti instruksi (following instructions) dan memberikan informasi yang akurat dan faktual (providing accurate, factual information).”
Menurut xAI, kemampuan Grok-2 meningkat dalam hal penalaran terhadap konten yang diambil (retrieved content) dan penggunaannya dalam berbagai alat. Grok-2 menunjukkan kemampuan yang lebih baik dalam mengidentifikasi informasi yang hilang, menalar urutan kejadian, dan membuang postingan yang tidak relevan.
Evaluasi model Grok-2 dalam berbagai tolok ukur akademik, termasuk penalaran, pemahaman bacaan, matematika, sains, dan pemrograman memperlihatkan peningkatan signifikan model Grok-2 dan Grok-2 mini dibandingkan model sebelumnya, Grok-1.5. Model terbaru ini unggul di beberapa area, seperti pengetahuan sains tingkat pascasarjana (graduate-level science knowledge/GPQA); pengetahuan umum (general knowledge/MMLU, MMLU-Pro); dan soal-soal kompetisi matematika (MATH).
Selain itu, Grok-2 juga unggul dalam tugas-tugas berbasis vision (pengelihatan), menghasilkan kinerja terbaik dalam penalaran matematika visual (MathVista) dan menjawab pertanyaan berbasis dokumen (DocVQA).
Pengguna ???? Premium dan Premium+ bisa mencoba Grok-2 dan Grok-2 mini. Grok-2 dapat diakses melalui tab Grok di aplikasi ???? versi terbaru.
Menurut xAI, pengguna akan merasakan keunggulan model-model teranyar ini melalui pencarian dan fungsi reply yang lebih baik, serta insight yang lebih dalam dari postingan di ????.
Platform API Baru
xAI juga akan merilis Grok-2 dan Grok-2 mini untuk para developer melalui platform API enterprise baru yang dijanjikan hadir bulan ini juga.
Menurut xAI, API baru ini dibangun di atas teknologi khusus yang memungkinkan penyebaran inferensi multi-region dengan akses berlatensi rendah di seluruh dunia. Artinya, sistem menjalankan proses inferensi (pengambilan keputusan atau prediksi berdasarkan data) di berbagai wilayah geografis secara bersamaan (multi-region). Kemampuan ini memastikan bahwa pengguna di berbagai belahan dunia dapat mengakses layanan dengan waktu respons yang sangat cepat (latensi rendah), tanpa mengalami keterlambatan yang signifikan. Dengan kata lain, sistem ini dirancang untuk memberikan kinerja optimal dan cepat bagi pengguna di mana saja di dunia.
Selain itu, API baru ini juga menawarkan fitur keamanan yang ditingkatkan, seperti autentikasi multi-faktor yang bersifat wajib (misalnya menggunakan Yubikey, Apple TouchID, atau TOTP), statistik lalu lintas yang lebih kaya, dan analitik billing yang lebih canggih.
xAI juga menyediakan API manajemen yang memungkinkan integrasi manajemen tim, pengguna, dan billing ke dalam alat dan layanan internal yang sudah ada.
Baca juga: Bagaimana Agar Data Anda Tidak Dipakai Latih Model AI Grok di X?
Penulis | : | Liana Threestayanti |
Editor | : | Liana Threestayanti |
KOMENTAR