Akhir-akhir ini kita diramaikan dengan ChatGPT, teknologi chatbot berbasis AI (Artificial Intelligence) yang bisa diajak mengobrol secara luwes dan mengerjakan tugas yang telah diperintahkan.
Sekarang, muncul lagi teknologi baru berbasis AI yang bernama VALL-E. Dikembangkan oleh raksasa teknologi Microsoft, VALL-E adalah AI text-to-speech yang dapat mereplikasi suara seseorang.
VALL-E menggunakan sampel suara yang direkam selama tiga detik saja untuk kemudian dijadikan sebagai prompt.
Setelah mempelajari sampel suara yang direkam, VALL-E bakal dapat meniru suara dari seseorang tadi untuk mengucapkan kata apapun. Bahkan, kata yang tidak pernah diucapkan oleh si pemilik suara aslinya.
Tidak hanya itu, teknologi AI ini juga mampu mereplikasi emosi dan nada suara yang sudah direkam dari seseorang.
Microsoft menyebut VALL-E sebagai "neural codec language model", dan dibangun dari teknologi yang disebut EnCodec (codec audio yang menggunakan teknik pembelajaran mesin), yang dikembangkan oleh Meta pada 2022.
VALL-E juga dikembangkan dengan algoritme yang mirip dengan algoritme teknologi AI sebelumnya, yaitu DALL-E.
Bedanya, DALL-E memiliki kemampuan yang bisa membuat sebuah gambar hanya berdasarkan sebuah teks.
VALL-E diajarkan menggunakan perpustakaan khusus. Yang terbaru, berisi 60.000 jam pidato bahasa Inggris dari lebih dari 7.000 orang.
Microsoft mengatakan bahwa VALL-E dapat digunakan untuk aplikasi text-to-speech berkualitas tinggi.
Misalnya, dapat digunakan untuk mengedit rekaman suara di mana kata-kata seseorang boleh diubah.
Hasilnya, pengguna dapat membuat konten audio (seperti sulih suara untuk buku audio), dan lainnya.
Penulis | : | Rafki Fachrizal |
Editor | : | Rafki Fachrizal |
KOMENTAR