Google Tingkatkan Kemampuan AI Gemini 1.5 Pro, Jauh Lebih Cerdas!

Google meningkatkan kemampuan model bahasa besar (large language model/LLM) Gemini 1.5 Pro dalam konferensi pengembang Google I/O 2024. Google mengeklaim Gemini 1.5 Pro kini dapat menampung hingga dua juta token, naik dua kali lipat dari sebelumnya.

Sebagai perbandingan, saat pertama kali diumumkan pada Februari, Gemini 1.5 Pro hanya dapat menerima dan memproses satu juta token dalam satu kueri. Peningkatan itu memungkinkan Gemini 1.5 Pro mendukung lebih banyak input.

"AI Gemini Pro mampu mengerjakan tugas-tugas penalaran yang jauh lebih umum atau kompleks,," kata Josh Woodward (VP Google Labs) yaitu salah satu divisi AI eksperimen Google.

Model AI dengan LLM yang mendukung banyak token biasanya memiliki performa yang lebih baik. Sebagai gambaran, dua juta token itu setara dengan sekitar 1,4 juta kata, dua jam video, atau 22 jam audio. Dengan peningkatan ini, Gemini 1.5 Pro dapat menganalisis file besar dengan lebih baik.

Tak hanya itu, Gemini 1.5 Pro mampu mengingat konten percakapan dan memahami konteks yang lebih kompleks. Teknologi itu juga mengalami peningkatan algoritmik, sehingga lebih baik dalam pembuatan kode, penalaran logis, percakapan, dan pemahaman audio serta gambar.

Gemini 1.5 Pro juga mendukung input foto, video dan audio di dalam Gemini API dan AI Studio. Gemini 1.5 Pro yang ditingkatkan saat ini tersedia dalam mode pratinjau. Google membuka pendaftaran bagi pengembang yang tertarik untuk mencobanya melalui Google AI Studio. Anda dapat memasukkan nama ke daftar tunggu untuk mencoba Gemini 1.5 Pro yang mendukung dua juta token.

Selain Gemini 1.5 Pro, Google juga memperkenalkan Gemini 1.5 Flash, versi yang lebih sederhana dari Gemini 1.5 Pro. Gemini 1.5 Flash menghasilkan output lebih cepat dibanding versi Pro. Gemini 1.5 Flash juga mendukung hingga dua juta token dan mampu menganalisis audio, video, gambar, serta teks, namun output yang dihasilkan hanya berupa teks. Versi ini cocok untuk tugas seperti ringkasan, aplikasi obrolan, teks atau caption untuk gambar dan video, serta ekstraksi data dari dokumen panjang.

"Sebagai pengembang, Anda bisa menggunakannya (Flash) jika Anda begitu peduli dengan kecepatan output model," imbuhnya seperti dikutip Tech Crunch.

Source	:	Tech Crunch
Penulis	:	Adam Rizal
Editor	:	Adam Rizal