Alibaba DAMO Academy Luncurkan SeaLLMs, Model Bahasa AI Inklusif

Alibaba DAMO Academy meluncurkan SeaLLMs, Large Language Model (LLM) yang menghadirkan versi 13 miliar parameter dan 7 miliar parameter. LLM ini dirancang khusus untuk mendukung keragaman bahasa di Asia Tenggara. Model ini merupakan loncatan teknologi dalam halmencerminkan kemajuan teknologi dalam hal inklusivitas, menawarkan dukungan yang optimaltelah dioptimalkan untuk bahasa-bahasa lokal di wilayah Asia Tenggaraini, termasuk Indonesia, Vietnam, Indonesia, Thailand, Malaysia, Khmer, Laos, Tagalog, dan Burma.

Model percakapan SeaLLM-chat menunjukkan adaptabilitas yang sangat baikbesar terhadap keberagaman budaya yang unik dari setiap negara, selarasesuai dengan adat istiadat, gaya, dan kerangka hukum lokal, serta menjadi asisten chatbot yang sangat berharga bagi bisnis yang berinteraksi dengan pasar Asia Tenggara.

SeaLLMs kini tersedia secara open-source di Hugging Face, dengan checkpoint yang telah dirilis dan berlisensi untuk tujuan komersial yang telah mendapat izin.

"Dalam upaya berkelanjutan kami untuk menjembatani kesenjangan teknologi, kami banggasangat senang memperkenalkan SeaLLMs, serangkaian model AI yang tidak hanya memahami bahasa lokal tetapi juga merangkul kekayaan budaya Asia Tenggara," kata Lidong Bing, Director of the Language Technology Lab at Alibaba DAMO Academy.

"Inovasi ini akan mempercepat demokratisasi AI, memberdayakan komunitas yang secara historis kurang terwakili dalam ranah digital," ujarnya.

Luu Anh Tuan (Assistant Professor in the School of Computer Science and Engineering (SCSE) at Nanyang Technological University) mengatakan sebagai mitra jangka panjang Alibaba dalam studi AI multi-bahasa, mengatakan langkah-langkah Alibaba dalam menciptakan LLM multi-bahasa merupakan upaya yang mengesankan. Inisiatif ini berpotensi membuka peluang baru bagi jutaan orang yang berbicara dalam bahasa selain Inggris dan China.

"Upaya monumental Alibaba dalam memajukan teknologi inklusif dengan kini mencapai tonggak sejarah dengan pmeluncurkan SeaLLM, merupakan langkah monumental," katanya.

Model dasar SeaLLM sendiri telah melewatinjalani pra-pelatihan sebelumnya pada dataset berkualitas tinggi dan beragam yang mencakup bahasa-bahasa dari Asia Tenggara, memastikan pemahaman nuansa pada konteks lokal dan komunikasi setempatasli.

Kerja yang mendasar ini membentuk persiapan awal dasar untuk model percakapan, model SeaLLM-chat, yang mendapat manfaat dari teknik fine-tuning canggih dan dataset multibahasa yang dibangun khusus.

Sebagai hasilnya, asisten chatbot berbasis model ini tidak hanya memahami tetapi juga menghormati dan mencerminkan dengan akurat konteks budaya bahasa-bahasa di Asia Tenggarawilayah ini, seperti norma sosial dan adat istiadat, preferensi gaya, dan pertimbangan hukum.

Keunggulanntungan teknis yang mencolok dari SeaLLMs adalah efisiensinya, terutama dengan bahasanya yang non-Latin. Mereka dapat menginterpretasikan dan memproses hingga 9 kali lipat teks yang lebih panjang (atau lebih sedikit token untuk panjang teks yang sama) dibandingkan daripada model lain seperti ChatGPT untuk bahasa non-Latin seperti Burma, Khmer, Laos, dan Thailand. Hal Iini berarti tersebut menghasilkan kemampuan eksekusi tugas yang lebih kompleks, biaya operasional dan komputasi yang lebih rendah, dan jejak lingkungan yang lebih kecil.

Selain itu, SeaLLM-13B, dengan 13 miliar parameter, melampaui model open-source yang sebanding dalam berbagai tugas linguistik, terkait pengetahuan, dan keamanan, sehingga menetapkan standar baru untuk kinerja. Ketika dievaluasi melalui benchmark M3-Exam (benchmark yang terdiri dari kertas ujian dari sekolah dasar hingga ujian masuk universitas), SeaLLM menunjukkan pemahaman mendalam terhadap sejumlah mata pelajaran melampaui rekan-rekannya, mulai dari sains ilmu pengetahuan, kimia, fisika hingga ekonomi, dalam yang ada dalam bahasa di Asia Tenggara, melampaui rekan-rekannya.

Dalam benchmark FLORES, yang menilai kemampuan terjemahan mesin antara bahasa Inggris dan bahasa-bahasa dengan sumber daya terbatas—bahasa-bahasa yang memiliki data terbatas untuk pelatihan sistem AI percakapan, seperti Laos dan Khmer—SeaLLMs pun unggul. Mereka melampaui model-model yang ada dalam bahasa-bahasa dengan sumber daya terbatas tersebut ini dan memberikan kinerja sebanding dengan model-model state-of-the-artterkini (SOTA) denganalam sebagian besar bahasa dengan memiliki sumber daya yang cukup tinggi, seperti Vietnam dan Indonesia.

Serangkaian SeaLLMs dari Alibaba DAMO Academy bukan hanya hasil kemajuan dalam bidang AI tetapi juga langkah menuju masa depan digital yang lebih inklusif. Untuk melihat lebih detail kemampuan dan dampak pengaruh SeaLLMs, kunjungi halaman proyek berikut: SeaLLM-13B-Chat di Hugging Face.

Penulis	:	Adam Rizal
Editor	:	Adam Rizal

Alibaba DAMO Academy Luncurkan SeaLLMs, Model Bahasa AI Inklusif

Alibaba

AI

Alibaba Cloud