Find Us On Social Media :

Nih, Kami Beritahu Cara Mudah Ubah File Audio Jadi Teks dengan AI

By Liana Threestayanti, Minggu, 6 Agustus 2023 | 15:47 WIB

Apakah salah satu tugas dalam pekerjaan Anda adalah mentranskripsikan file audio ke teks? Kami beri tahu cara mudah melakukannya dengan bantuan AI.

Apakah salah satu tugas dalam pekerjaan Anda adalah mentranskripsikan file audio atau video ke dalam format teks? Kami beri tahu cara mudah melakukannya dengan bantuan artificial intelligence (AI).

Beberapa profesi, misalnya jurnalis, kerap dihadapkan pada tugas mentranskripsikan file audio ke file teks. Misalnya, seorang jurnalis perlu mentranskripsikan hasil wawancara ke format teks. 

Dalam tugas ini, kendala utamanya adalah waktu. Ya, pekerjaan transkripsi memakan waktu yang cukup lama terutama ketika membutuhkan transkripsi yang akurat dan lengkap. Walhasil pekerjaan lain harus ditunda demi menyelesaikan proses transkripsi.

Nah, ada cara mudah dan gratis mentranskripsikan file audio atau video ke format teks. Untuk itu, kita membutuhkan salah satu tool AI milik OpenAI, yaitu Whisper AI, dalam proses transkripsi ini. Tool berbasis open source ini sepenuhnya gratis dan mendukung hampir 60 bahasa. Bahasa Indonesia adalah salah satu bahasa yang didukung Whisper AI. 

Ada dua opsi penggunaan Whisper AI. Kita dapat memasang tool AI langsung di komputer kita, tapi pastikan komputer tersebut memiliki spesifikasi yang memadai untuk menjalankan tool tersebut.

Cara lain adalah menggunakan Google Colabolatory atau Google Colab. Salah satu produk Google research yang berbasis cloud dan tak berbayar ini bertujuan mempermudah pekerjaan yang berkaitan dengan data science dan machine learning. Google Colab memungkinkan kita menjalankan kode langsung di browser sehingga kita tidak bergantung pada kinerja PC atau laptop kita untuk menjalankan AI.

Nah ini langkah-langkahnya:

Memasang Google Colaboratory

1. Untuk menggunakan Google Colab, kita harus masuk ke Google Drive. Sebelumnya, pastikan kita sudah masuk ke akun Google. Jika belum memiliki akun Google, silakan mendaftar lebih dulu. 

2. Setelah masuk ke Google Drive, pada sudut kiri layar, klik tombol “New”. Lalu klik “More” pada daftar menu dropdown yang muncul. Kemudian klik Connect to More Apps. 

3. Di kotak dialog Google Workspace Marketplace yang terbuka, klik pada kotak pencarian dan ketikkan “Google Colaboratory” dan klik untuk mencari. Kemudian klik pada hasil pencarian yang bertuliskan Colaboratory. Lalu, klik Install dan Continue. 

4. Selanjutnya kita akan melihat pesan bahwa Google Colaboratory sudah terkoneksi dengan Google Drive (“Google Colaboratory was connected to Google Drive”). Klik OK dan klik Done. 

5. Langkah berikutnya adalah mengeklik kembali tombol New di sudut kiri atas layar. Klik More dari menu dropdown yang muncul di layar. Opsi Google Colabotory akan muncul dan klik opsi tersebut. Langkah di atas akan membawa kita ke Google Colabolatory notebook.

Memasang Whsiper AI 

1. Sebelum kita mulai mentranskripsi, kita beri nama dulu file Google Colab yang akan kita buat. Klik Untitled0.ipynb di sudut kiri atas tampilan layar notebook Google Colab dan ketik nama file sesuai yang kita inginkan.

2. Selanjutnya, klik menu Runtime. Kemudian kita akan melihat opsi “Change runtime type”. Klik opsi tersebut untuk membuka kotak dialog untuk memilih hardware acccelerator. Pilih opsi GPU. Lalu klik Save.

3. Langkah selanjutnya adalah memasang Whisper AI. Pada sel tempat menuliskan kode ketikkan/salin !pip install git+https://github.com/openai/whisper.git lalu klik ikon Play pada sisi kiri sel untuk menjalankan kode.

4. Kemudian kita juga perlu memasang ffmpeg, yaitu aplikasi open source yang berfungsi menjalankan dan mengonversi berbagai macam format multimedia, baik format audio maupun video. Klik ikon + Code untuk menyisipkan code cell, atau tekan Ctrl+M B.

5. Ketikkan/salin !sudo apt update && sudo apt install ffmpeg di sel kode. Lalu, klik ikon Play di sebelah kiri sel untuk menjalankan kode. Tunggu beberapa saat.  

6. Langkah 3-5 akan menginstalasi Whisper AI dan ffmpeg di Google Colaboratory, bukan di komputer Anda. 

Mentranskripsikan file audio/video

1. Kemudian, klik ikon Folder di sisi kiri layar. Kita bisa menyeret (drag) file audio atau video yang akan ditranskripsikan ke area folder tadi. Google Colab akan memberitahukan bahwa file yang diunggah akan dihapus begitu runtime di-recycle. Klik OK. 

2. Tunggu sampai file selesai diunggah. Waktu upload file tergantung besar kecilnya ukuran file. Semakin besar ukuran file, waktu upload-nyapun akan lebih lama.

3. Klik tombol + Code, atau tekan Ctrl+M B, untuk menysipkan kode baru, ketikkan/salin !whisper "NAMA FILE DAN FORMATNYA" --model medium

Sebagai informasi, Whisper AI menyediakan lima model: tiny, base, small, medium, large. Sesuai namanya, model tiny akan menggunakan ruang paling sedikit, mentranskripsi lebih cepat, tapi mengorbankan akurasi. Sebaliknya, model large akan memakan ruang simpan lebih besar dan membutuhkan waktu lama untuk proses transkripsi. Namun akurasinya terbaik.

4. Dalam tutorial ini kita pilih medium untuk memperoleh keseimbangan antara akurasi dan kecepatan. Klik ikon Run di sebelah kode yang baru saja kita sisipkan. Tunggu proses transkripsi berjalan.

5. Setelah proses selesai, kita akan melihat hasil transkripsi. Kemudian di sisi kiri layar, ada tiga file baru dengan format SRT, TXT, dan VTT. Jika ketiga file tersebut tidak muncul, klik ikon Refresh. File dengan format TXT memuat teks dari audio/video yang kita transkripsikan. 

Sementara file SRT dan VTT adalah file caption yang juga memunculkan timestamp sehingga kita tahu kapan teks tersebut diucapkan.

6. Untuk mengunduh file-file tersebut, klik tiga titik di sisi kanan file, dan pilih “Download”. Kami sarankan untuk segera mengunduh file-file yang Anda butuhkan

7. Untuk mentranskripsi file lain, kita tinggal menyeret file tersebut ke area folder dan mengulang langkah transkfripsi di atas dengan nama file yang sesuai. 

Dalam percobaan yang kami lakukan, kami menggunakan file audio berbahasa Inggris. Hasilnya boleh dibilang memuaskan karena Whisper AI ini bahkan memberikan tanda-tanda baca dengan tepat, misalnya meletakkan titik di akhir kalimat. Tool AI ini juga mampu membubuhkan huruf kapital dengan tepat, misalnya di awal kalimat, nama orang, dan nama kota.

Nah, kini pekerjaan transkripsi tidak sulit lagi. Silakan mencoba!

Baca juga: Tingkatkan Produktivitas, Menkominfo Dorong Praktisi Humas Gunakan AI

Baca juga: Incar Pasar SMB, Alibaba Luncurkan Dua LLM AI Sumber Terbuka