Dalam pengembangan MMS, Meta mengumpulkan data audio dengan memanfaatkan rekaman audio dari teks-teks agama yang diterjemahkan.
“Kami beralih ke teks-teks agama, seperti Alkitab, yang telah diterjemahkan dalam berbagai bahasa dan terjemahannya telah dipelajari secara luas untuk penelitian terjemahan bahasa berbasis teks,” kata perusahaan.
Dengan menggabungkan rekaman Alkitab yang tidak berlabel dan teks serupa, peneliti dapat meningkatkan bahasa model yang tersedia menjadi lebih dari 4.000 bahasa.
Meta menggunakan wav2vec 2.0, model "pembelajaran representasi ucapan mandiri", yang dapat melatih data tanpa label. Meta juga membandingkan MMS dengan Whisper OpenAI.
“Kami menemukan bahwa model yang dilatih pada data Massively Multilingual Speech mencapai separuh tingkat kesalahan kata, tetapi Massively Multilingual Speech mencakup 11 kali lebih banyak bahasa," ujarnya.
Meta memperingatkan model bahasa AI-nya tidak sempurna. Ada beberapa risiko MMS dapat salah menerjemahkan kata atau frasa tertentu sehimgga dapat mengakibatkan bahasa yang menyinggung dan/atau tidak akurat.
"Kami terus percaya bahwa kolaborasi lintas komunitas AI sangat penting untuk pengembangan teknologi AI yang bertanggung jawab," pungkasnya.