Melalui blog-nya, OpenAI mengumumkan akan mulai meluncurkan kemampuan voice dan image recognition pada ChatGPT.
Dengan kemampuan ini, pengguna dapat memberikan prompt tidak hanya dengan cara mengetik di text box tapi pengguna juga akan bisa memberikan perintah suara atau mengunggah gambar.
Kemampuan baru ini akan bisa dinikmati para pengguna ChatGPT Plus dan Enterprise dalam waktu dua minggu ke depan. Voice recognition akan disematkan OpenAI pada iOS dan Android terlebih dulu. Sementara kemampuan berinteraksi dengan gambar akan langsung tersedia untuk semua platform.
Untuk memanfaatkan voice chat, pengguna cukup mengetuk dan menyampaikan pertanyaan. ChatGPT mengubah suara menjadi teks dan memasukkannya ke model bahasa besar, mendapatkan jawaban, mengubahnya kembali menjadi suara, dan mengucapkan jawabannya. Cara kerjanya mirip Alexa dan Google Assistant.
Menurut OpenAI, kemampuan suara baru ini didukung oleh model text-to-speech baru, yang mampu menghasilkan audio mirip manusia hanya dari teks dan contoh ucapan beberapa detik, dan sistem speech recognition berbasis open source, Whisper.
Pengguna bisa memilih lima pilihan suara (Juniper, Sky, Cove, Ember, dan Breeze) pada ChatGPT yang merupakan hasil kolaborasi OpenAI dengan pengisi suara profesional untuk menciptakan jenis-jenis suara.
Dikutip dari The Verge, melihat potensi besar synthetic voice, OpenAI dikabarkan sedang bekerja sama dengan Spotify untuk menerjemahkan podcast ke beberapa bahasa lain dengan tetap mempertahankan suara si podcaster.
Namun OpenAI juga menyadari potensi risiko yang ditimbulkan oleh kemampuan synthetic voice. “Kemampuan ini juga menghadirkan risiko baru, misalnya potensi pelaku kejahatan menyamar sebagai tokoh masyarakat atau melakukan penipuan,” tulis OpenAI. Oleh karena itu, model ini tidak tersedia secara luas dan penggunaannya akan dibatasi untuk hal-hal yang spesifik serta di bawah kemitraan tertentu.
Kemampuan image recognition pada ChatGPT disebut mirip Google Lens. Pengguna mengambil foto apa pun yang diminati, dan ChatGPT akan mencoba memilah apa yang ditanyakan pengguna dan memberikan respons yang sesuai. Perbedaannya dengan image search adalah pengguna bisa meminta chatbot memberikan jawaban yang lebih baik sehingga pengguna tidak perlu mengulang pencarian.
Pemahaman gambar pada kemampuan ini didukung oleh multimodal GPT-3.5 dan GPT-4. Model ini menerapkan keterampilan penalaran bahasanya (language reasoning skill) pada berbagai macam gambar, seperti foto, tangkapan layar, dan dokumen yang berisi teks dan gambar.
Salah satu potensi isu pada kemampuan image search ini adalah ketika pengguna memberikan prompt berupa gambar orang. Namun OpenAI telah membatasi kemampuan ChatGPT dalam menganalisa dan membuat pernyataan langsung mengenai orang, dengan alasan akurasi dan privasi.
Baca juga: The Fed Akui Chatbot AI ChatGPT Dapat Tingkatkan Produktivitas Kerja
Baca juga: OpenAI Luncurkan Mesin AI Dall-E 3, Dapat Membuat Gambar Lewat ChatGPT
Penulis | : | Liana Threestayanti |
Editor | : | Liana Threestayanti |
KOMENTAR