Para peneliti di Oak Ridge National Laboratory, AS, berhasil menggunakan superkomputer untuk melatih model artificial intelligence (AI) dengan lebih cepat dan efisien.
Dengan mengerahkan sekitar 8% saja dari GPU-nya, superkomputer bernama Frontier dapat melatih model bahasa besar (LLM) dengan parameter berskala 1 triliun, atau setara GPT-4 milik OpenAI.
Dikutip dari Tech Radar, superkomputer yang berada di markas Oak Ridge National Laboratory di Oak Ridge, Tennessee, AS, ini hanya menggunakan 3.072 dari 37.888 GPU AMD Radeon Instinct yang terpasang pada sistemnya, untuk melatih sistem AI dengan satu triliun parameter, atau setara dengan GPT-4 dari OpenAI. Sementara untuk melatih model berukuran 175 miliar parameter, atau seukuran ChatGPT, Frontier menggunakan 1.024 GPU atau 2,7% GPU miliknya.
Sebagai informasi, para pengembang LLM umumnya tidak menggunakan superkomputer untuk melatih model AI. Mereka menggunakan mesin-mesin server khusus untuk melatih LLM yang membutuhkan GPU dalam jumlah sangat banyak.
OpenAI tidak pernah mengungkapkan secara gamblang informasi terkait pelatihan yang dilakukan terhadap ChatGPT. Namun TrendForce memperkirakan, untuk melatih chatbot ini, OpenAI mengerahkan lebih dari 20.000 GPU. Estimasi Lambda Labs juga berbeda jauh, yaitu 25.000 GPU.
Untuk bisa melakukan pelatihan dengan lebih cepat dan efisien di superkomputer exascale ini, para peneliti menerapkan teknik-teknik distribusi komputasi, seperti tensor parallelism, pipeline parallelism, dan data parallelism.
Namun teknik ini bukan tanpa masalah. Proses pelatihan ini membutuhkan RAM minimal 14TB, tapi GPU MI250X yang digunakan hanya memiliki VRAM sebesar 64GB. Untuk itu, para peneliti harus menggabungkan beberapa GPU menjadi satu.
Tantangannya adalah para peneliti harus memastikan komponen-komponen tersebut dapat berkomunkasi satu sama lain dengan baik dan efektif, terutama saat sumber daya yang digunakan untuk melatih LLM meningkat. Ibaratnya Anda memiliki satu tim besar dalam satu proyek dan Anda harus memastikan setiap orang bisa saling komunikasi dan memahami tugasnya.
Dari percobaan yang dilakukan, Frontier dapat mencapai peak throughput/menggunakan sebesar 38,38% dari kapasitas komputasi maksimalnya atau melakukan komputasi dengan kecepatan 73,5 TFLOPS untuk model AI dengan 22 miliar parameter, ; 36.14% (69.2 TFLOPS) untuk model dengan 175 miliar parameter; dan 31,96% (61,2 TFLOPS) untuk model dengan 1 triliun parameter.
Para peneliti juga menyampaikan bahwa Frontier dapat mencapai efisiensi weak scaling hingga 100% . Sedangkan untuk model dengan 175 milar parameter, superkomputer dapat mencapai strong scaling performance hingga 89,93% dan 87,05% untuk model dengan 1 triliun parameter.
Namun sayangnya tidak ada keterangan mengenai berapa banyak waktu yang dihabiskan para peneliti Oak Ridge National Laboratory untuk memperoleh hasil-hasil tersebut.
Baca juga: GlobalData: 2024, AI Generatif Makin Moncer, LLM Ditinggalkan