LLM Makin Berkembang, Chatbot AI & ChatGPT Ungguli Google Translate

Liana Threestayanti - Selasa, 27 Februari 2024 | 20:17 WIB

Perkembangan LLM di balik chatbot AI, seperti ChatGPT, akan membawa kita ke era baru penerjemahan bahasa. Mana lebih unggul dari Google Translate? (iluastrasi chatbot AI)

Perkembangan model-model bahasa besar (large language model/LLM) yang menopang kinerja chatbot artificial intelligence (AI), seperti ChatGPT, diprediksi akan membawa kita ke era baru penerjemahan bahasa. Bagaimana kemampuan translasi itu jika dibandingkan dengan layanan penerjemahan online seperti Google Translate?

PCMag melakukan uji perbandingan kemampuan menerjemahkan bahasa antara chatbot AI dan Google Translate. Menggunakan metode blind test, para peneliti meminta penguji yang fasih berbicara dalam delapan bahasa non Inggris untuk membandingkan hasil terjemahan chatbot AI dan Google Translate.

Uji dilakukan dua kali. Di uji pertama, PCMag membandingkan ChatGPT (versi gratisan), Microsoft Copilot, dan Google Gemini dengan Google Translate. Kemudian di uji selanjutnya, para penguji akan membandingkan kemampuan translasi antara ChatGPT versi gratisan dan berbayar, serta AI agent yang ada di GPTStore.

Namun perlu diingat bahwa blind test ini saja tidak cukup dan dibutuhkan tes yang lebih mendalam serta teliti untuk mengevaluasi dan membandingkan tool-tool ini.

Uji pertama dilakukan pada bulan Juni 2023. Tim dari PCMag meminta para penutur bilingual yang menguasai bahasa asing non Inggris (Polandia, Perancis, Korea, Spanyol, Arab, Tagalog, dan Amharic) untuk melakukan blind rank terhadap dua paragraf tulisan dalam bahasa Inggris yang kemudian diterjemahkan ke bahasa asing menggunakan Google Translate, ChatGPT, Gemini (kemudian dikenal sebagai Bard), dan Copilot (kemudian Microsoft Bing Chat). Setelah para penutur/penguji menyelesaikan tugasnya, tim PCMag baru memberitahukan kepada mereka layanan apa yang menghasilkan terjemahan tiap paragraf.

Paragraf Uji 1: "Hello! Do you speak English? I need some help with directions. I am trying to find a vegetarian restaurant because my sister does not eat meat. What do you recommend? We also want to stay within a few miles of here, and don’t want to spend more than $50. If they have cocktails, that would be a bonus. We’ve had a long day of traveling and need to blow off some steam! You’re welcome to join us. Cheers!"

Paragraf Uji 2: "How do I buy tickets to the boat party? Do we need to pay in advance, or can we buy them at the dock when we arrive? I need to be on the upper deck because sometimes I get seasick when I’m too close to the water. Also, I want to be as far away as possible from the young hooligans who want to pop champagne constantly during the voyage. That’s dangerous and not my kind of fun!"

Chatbot AI Unggul

Hasil uji pertama ini adalah chatbot AI mengalahkan Google Translate. Dikutip dari PCMag, dari 12 contoh terjemahan yang dikirimkan ke para peserta penguji, dan semua peserta lebih memilih hasil terjemahan chatbot AI dari pada Google Translate.

ChatGPT rata-rata mengungguli semuanya. Salah satu alasan yang diberikan peserta adalah ChatGPT dapat menerjemahkan ekspresi yang digunakan sehari-hari (colloquialism) dengan tepat, misalnya idiom “blow off steam.” Sedangkan Google Terjemahan cenderung memberikan terjemahan yang lebih literal yang belum tentu dipahami dalam bahasa dan budaya lain.

Dikutip dari PCMag, seorang peneliti Hugging Face, Nazneen Rajani mengungkapkan bahwa “ramuan”rahasia yang dimiliki chatbot seperti ChatGPT adalah RLHF, yaitu reinforcement learning with human feedback.

Chatbot mengumpulkan preferensi manusia dari respons model untuk berbagai dimensi, seperti kejujuran, tidak menyakiti, membantu, dan lain-lain. Preferensi manusia ini membantu AI memilih terjemahan yang lebih sesuai secara budaya, terutama bagi penutur nonasli (non-native).

Namun hasil uji ini juga memperlihatkan, tidak ada satupun chatbot yang dapat menggantikan penutur asli yang fasih. Semua chatbot terkadang masih memberikan pilihan kata yang canggung dan tidak akurat.

Google Translate Menang untuk Bahasa Langka

Meski tidak menjadi pilihan utama, Google Translate memiliki keunggulan yaitu pada bahasa-bahasa dengan jumlah penutur yang relatif sedikit. Dalam uji yang dilakukan PCMag ini adalah bahasa Tagalog (Filipina) dan Amharic (Ethiopia). Hanya ada 33 juta pengguna bahasa Tagalog dan 25 juta orang yang berbicara dalam bahasa Amharic, menurut data WorldData.info. Sebagai perbandingan, bahasa Spanyol digunakan oleh 450 juta orang dan Korea 80 juta.

Untuk bahasa-bahasa yang jarang digunakan ini, para penguji menilai ChatGPT menggunakan kata-kata yang sangat formal dan biasanya digunakan dalam pengumuman publik. Menurut Rajani, model AI tidak dapat melakukan generalisasi dengan baik untuk bahasa yang sumber dayanya sedikit atau tidak memiliki cukup banyak catatan preferensi manusia.

Oleh karena itu, chatbot tidak memiliki data yang cukup untuk bisa memberikan terjemahan yang lebih kontekstual untuk bahasa Tagalog dan Amharic. Akibatnya terjemahan chatbot ke dalam dua bahasa ini terlihat lebih literal daripada yang hasil terjemahan oleh Google Translate.

Bahkan para peneliti mendapati Microsoft Bing harus bekerja lebih keras ketika menerjemahkan teks ke bahasa Amharic dengan membiarkan beberapa bagian dari paragraf tetap dalam bahasa Inggris. Hasilnya seperti di bawah ini.

Paragraf 1 - ሰላም! እንዴት እንደሚናገሩ እንደሆነ እንዲህ ብለው ጠየቁ? በመጠን የተመረጡ መኪና ቤት የተጠቀሱ ምግቦች ይህ መሆኑ ስለ መጠየቅ ይፈልጋሉ? እኔ በ $50 ብቻ መጠቀም እና የ cocktails ይጠቀማ? ከ 2-3 ሜ. We’ve had a long day of traveling and need to blow off some steam! You’re welcome to join us. Cheers!

Paragraf 2 - እንዴት መገልገያ ይጠቀማል? እንዴት እንደሚከተሉ መጠቀም እና የ dock ስር ይጠቀማል? በ መጠን የ upper deck ይደርሳል እና በ ግራ ተጨማሪ የ champagne መጠጥ የ young hooligans ከ ተጨማሪ በ ቀን ይጠቀማ? That’s dangerous and not my kind of fun!

ChatGPT Plus Lebih Akurat

Delapan bulan setelah uji pertama, atau tepatnya di bulan Februari 2024, PCMag kembali melakukan blind test tapi kali ini mereka hanya membandingkan di antara versi ChatGPT. Para peneliti juga memeriksa hasil terjemahan Google Translate untuk memeriksa apakah peringkatnya masih lebih rendah.

Seperti diketahui, OpenAI menawarkan versi gratis yang menggunakan model GPT-3.5. Sementara versi Plus memungkinkan pengguna ChatGPT menggunakan model yang lebih canggih, GPT-4 maupun mengakses penawaran baru yang disebut GPT. Model AI ini bisa disesuaikan kebutuhan dan dilatih untuk tugas-tugas tertentu, seperti menerjemahkan bahasa.

Layanan penerjemah yang digunakan: Google Translate, ChatGPT gratisan (GPT-3.5), ChatGPT berbayar (GPT-4), ChatGPT berbayar (tersedia di GPTStore untuk bahasa tertentu).

Dalam uji kedua ini, para peneliti akan menerjemahkan teks ke dalam bahasa Polandia, Perancis, Korea, Jerman, Arab, dan Tagalog. Bahasa Jerman tidak diikutsertakan dalam uji pertama, dan peneliti tidak mencakupkan bahasa Spanyol dan Amharic dalam tes kedua karena isu ketersediaan.

Paragraf yang diterjemahkan diambil dari novel Harry Potter - "Harry felt as though he had barely lain down to sleep in Ron’s room when he was being shaken awake by Mrs. Weasley. “Time to go, Harry, dear,” she whispered, moving away to wake Ron. Harry felt around for his glasses, put them on, and sat up. It was still dark outside. Ron muttered indistinctly as his mother roused him. At the foot of Harry’s mattress he saw two large, disheveled shapes emerging from tangles of blankets. “’S’ time already?” said Fred groggily."

Dalam uji kedua ini, hampir setiap saat ChatGPT Plus menghasilkan terjemahan terbaik. Para penguji memberi peringkat satu pada GPT-4 untuk lima dari enam bahasa. GPT-4 yang dimaksud di sini adalah baik model yang hanya dapat diakses dengan akun Plus maupun GPT khusus bahasa yang ada di GPTStore.

Menurut para peneliti, meskipun hasil ini tidak bisa dikategorikan definitif karena ukuran sampel yang kecil, konsistensi hasil tampaknya menunjukkan bahwa model yang lebih canggih dan terlatih memang dapat memberikan perbedaan.

Khususnya bahasa Tagalog, menurut penguji, GPT for Tagalog memberikan hasil terbaik karena sebagian besar tata bahasanya benar dan pikiran utama dalam tiap kalimat dapat diterjemahkan dengan benar.

Yang mengejutkan, kali ini performa Google Translate kali ini dinilai lebih baik dari delapan bulan lalu. Layanan penerjemah dari Google ini menduduki peringkat satu untuk bahasa Jerman dan peringkat dua untuk Tagalog dan Arab.

Namun ChatGPT versi gratis, yang menggunakan GPT-3.5 memperoleh peringkat yang rendah. Meski berhasil meraih peringkat kedua untuk penerjemahan ke bahasa Jerman, ChatGPT versi gratis hanya menempati posisi ketiga atau terakhir.

Tak mau berspekulasi bahwa OpenAI dengan sengaja membatasi kemampuan ChatGPT versi gratisan ini, PCMag menilai secara keseluruhan ChatGPT versi gratis dan Google Terjemahan memiliki kinerja yang kira-kira setara dalam pengujian kedua ini.