Terobosan baru yang dibuat contoh artificial intelligence yang satu ini terbilang luar biasa. Proses video dubbing (vubbing) yang ditenagai artificial intelligence dapat memberikan efisiensi sekaligus menjaga kualitas sebuah film.
Penerapan contoh artificial intelligence bernama TrueSync menjadi dikenal luas ketika Scott Mann, penulis sekaligus sutradara kondang Hollywood, menghadapi tantangan yang unik.
Film garapannya yang berjudul “Fall” harus masuk kategori R (restricted atau terbatas) berdasarkan standar Motion Picture Association of America (MPAA) karena dinilai mengandung terlalu banyak kata-kata kasar (konten dewasa). Persoalannya adalah Lionsgate, sebagai pihak distributor, menginginkan “Fall” masuk ke kategori PG-13 karena berpeluang meraih audiens yang lebih banyak. Artinya, produser film harus menghapus hampir semua kata-kata kasar dalam film yang sudah selesai proses produksinya itu.
Syuting ulang tentu bukan pilihan karena selain memakan waktu, proses dan logistiknya juga akan sangat mahal biayanya. Mengutip dari Wikipedia, film ini disebutkan memakan biaya hingga US$3 juta.
Sebagai informasi film “Fall” bercerita tentang dua pemanjat tebing perempuan yang terjebak di atas menara radio dengan ketinggian lebih dari 600 meter yang sudah tidak terpakai dan berlokasi di wilayah terpencil. Bisa dibayangkan kesulitan yang akan dihadapi tim produksi jika mereka harus mengulang syuting demi mengganti dialog.
Dikutip dari LA Times, Scott Mann menyebut “Fall” sebagai film tersulit yang pernah ia buat. Proses shooting di tengah pandemi COVID dan kendala alam menjadi dua tantangan besar yang harus ia hadapi.
Dubbing atau sulih suara ulang pun tidak dipilih Scott Mann karena gerak bibir Grace Caroline Currey dan Virginia Gardner, dua pemeran utama film ini, tidak akan sesuai dengan skrip audio baru yang akan didengar penonton. Perbedaan gerak bibir dengan dialog yang mereka dengar tentu akan lebih mudah dilihat penonton di layar dengan resolusi 4k.
Efisiensi Pasca Produksi
Sebagai Co-CEO dan salah satu pendiri atau founder Flawless AI, Scott Mann pun mengandalkan teknologi artificial intelligence untuk menjawab tantangan ini. Flawless AI adalah perusahaan teknologi yang memiliki teknologi TrueSync. Teknologi berbasis artificial intelligence ini memiliki kemampuan mengubah video secara digital untuk menyesuaikan penampilan aktor dengan trek audio yang disulihsuarakan. Inilah yang disebut vubbing.
Untuk melakukan vubbing, tim Flawless akan merekam para aktor di film “Fall” mengucapkan frasa-frasa alternatif, misalnya "fricking", untuk menggantikan bahasa vulgar dalam film tersebut. Selanjutnya adalah tugas artificial intelligence.
Rekaman audio yang baru dan video dari film tersebut akan diproses di jaringan neural network TrueSync. Jadi pada dasarnya teknologi ini akan melakukan deepfaking terhadap wajah para aktor agar mimik atau ekspresi wajah dan gerak bibir si aktor sesuai dengan audio yang baru.
Kepada TNW, Scott Mann menjelaskan bahwa penggunaan sistem berbasis artificial intelligence ini tidak hanya lebih murah, dibandingkan syuting ulang, tapi juga relatif mudah diintegrasikan dalam proses produksi. Ia juga menjelaskan, sekitar 80% workflow berjalan secara otomatis, sehingga tidak dibutuhkan perangkat atau arahan khusus dalam prosesnya.
Namun Flawless AI dibangun tidak hanya untuk membantu para produsen film menghemat biaya dalam proses pasca produksi. Fokus utama dari perusahaan ini adalah aksesibilitas. Apa maksudnya?
Menjaga Makna dan Cerita
Flawless AI awalnya didirikan setelah Scott Mann kecewa dengan hasil sulih suara film “Heist” yang dibintangi aktor kawakan Robert De Niro. Menurut Mann, metode sulih suara konvensional yang selama ini digunakan di industri film memiliki banyak keterbatasan.
Salah satu keterbatasan yang ia maksud adalah ketika sebuah film disulihsuarakan ke bahasa asing. Cerita, makna, dan penampilan para aktor di film tersebut tidak lagi sesuai dengan cerita aslinya akibat sulih suara yang tidak tepat. Dialog yang disulihsuarakan ke bahasa yang berbeda menjadi tidak sesuai dengan ekspresi wajah dan gerak bibir para aktor dalam film tersebut.
Salah satu solusi tipikal yang kerap diterapkan adalah menulis ulang dialog dalam bahasa yang diinginkan agar lebih cocok dengan visual yang sudah ada sebelumnya. Namun, demi keterbacaan, perubahan tersebut tak jarang harus mengorbankan visi asli tim kreatif.
Rasa frustasinya ini mendorong Scott Mann untuk mencari solusi yang lebih baik. Sampai akhirnya ia membaca sebuah white paper dari Max Planck Institute mengenai neural network, program komputer yang meniru struktur otak dan mencoba mengubah ekspresi wajah seorang aktor ke wajah aktor yang lain. Dari sini lahirlah Flawless AI yang kemudian mengembangkan solusi TrueSync yang berbasis artificial intelligence.
Selain menghadirkan visualisasi lipsync yang sempurna dalam berbagai bahasa, sistem TrueSync juga didukung engine yang tugasnya menjaga performa film dengan menangkap semua nuansa dan emosi dari material aslinya. Oleh majalah Time, teknologi ini dimasukkan ke dalam daftar Best of Inventions tahun 2021 lalu.