Begini Cara AWS Kembangkan Infrastruktur AI Generatif Skala Besar

Adam Rizal - Sabtu, 29 Juni 2024 | 14:00 WIB

Ilustrasi AWS (Amazon Web Services).

Artificial intelligence atau kecerdasan buatan generatif (AI generatif) telah mengubah dunia kita secara drastis dalam waktu singkat. Hanya dalam beberapa bulan, teknologi baru ini telah menjadi hal yang biasa digunakan oleh individu dan perusahaan untuk meningkatkan pengambilan keputusan, mengubah pengalaman pelanggan, dan mendorong kreativitas serta inovasi.

Namun, infrastruktur dasar yang mendukung AI generatif ini bukanlah sesuatu yang dibangun dalam semalam, melainkan hasil dari inovasi yang didapatkan selama bertahun-tahun. Selama lebih dari 25 tahun, kecerdasan buatan (AI) dan machine learning (ML) telah menjadi fokus utama Amazon. Berbagai fitur Amazon yang dinikmati pelanggan setiap hari dimungkinkan oleh ML, seperti rekomendasi produk dan pilihan pengemasan.

"Di Amazon Web Services (AWS), kami berkomitmen untuk memberikan pengetahuan dan kemampuan tersebut kepada pelanggan dengan cara mendemokratisasikan ML bagi setiap developer, data scientist, dan praktisi ahli," kata Prasad Kalyanaraman, VP of Infrastructure Services di AWS.

Saat ini AI generatif (AI generatif) telah menjadi bisnis multi-miliar dolar untuk AWS. Lebih dari 100.000 pelanggan dari berbagai industri - termasuk Adidas, New York Stock Exchange, Pfizer, Ryanair, dan Toyota - menggunakan layanan AI dan ML AWS untuk menghadirkan pengalaman yang lebih baik bagi pelanggan mereka.

Selain itu, banyak model AI generatif terkemuka dilatih dan dijalankan di AWS. Semua pencapaian ini didukung oleh infrastruktur global AWS, yang meliputi pusat data, jaringan global, dan chip AI. Tidak ada jalan pintas untuk membangun pengalaman terbaik.

"Berkat pengalaman kami membangun pusat data berskala besar selama lebih dari 15 tahun dan server berbasis GPU selama lebih dari 12 tahun, AWS memiliki infrastruktur AI yang sangat luas," ujarnya.

Seiring dunia yang terus berubah dengan cepat, AWS terus beradaptasi dan meningkatkan fondasi infrastruktur yang kuat. AWS juga menghadirkan inovasi baru khusus untuk AI generatif.

Menghadirkan jaringan dengan latensi rendah dan berskala besar

Model AI Generatif butuh data yang sangat banyak agar bisa dilatih dan bekerja dengan efisien. Semakin besar dan rumit modelnya, semakin lama waktunya untuk belajar. Proses belajar yang lama ini tidak hanya membuat biaya operasional meningkat, tapi juga menghambat kemajuan inovasi. Jaringan internet biasa yang kita gunakan sehari-hari ternyata tidak cukup cepat dan besar untuk melatih model AI Generatif.

AWS terus mengurangi latensi jaringan dan meningkatkan performa kecepatan untuk para pelanggan. AWS telah membangun sendiri perangkat jaringan (alat yang menghubungkan komputer dalam jaringan) dan sistem operasi jaringan (perangkat lunak yang mengatur jaringan) untuk setiap lapisan, mulai dari Network Interface Card (kartu yang menghubungkan komputer ke jaringan), hingga saklar top-of-rack (alat yang menghubungkan beberapa komputer dalam satu rak), ke jaringan pusat data, hingga router yang terhubung ke internet dan router utama.

"Pendekatan ini tidak hanya memberi kami kontrol lebih besar untuk meningkatkan keamanan, keandalan, dan performa bagi pelanggan, tetapi juga memungkinkan kami untuk berinovasi lebih cepat dibandingkan yang lain," ujarnya.

Sebagai contoh, pada tahun 2019, kami memperkenalkan Elastic Fabric Adapter (EFA), sebuah antarmuka jaringan yang dibuat khusus oleh AWS yang menyediakan kemampuan bypass sistem operasi ke instance Amazon EC2. Ini memungkinkan pelanggan untuk menjalankan aplikasi yang membutuhkan komunikasi antar-simpul tingkat tinggi dalam skala besar. EFA menggunakan Scalable Reliable Datagram (SRD), protokol transportasi jaringan performa tinggi dengan latensi rendah yang dirancang khusus oleh AWS, untuk AWS.

Baru-baru ini, AWS bergerak cepat untuk mengembangkan jaringan baru khusus untuk melatih AI Generatif. Jaringan UltraCluster generasi pertama kami, yang dibangun pada tahun 2020, dapat menangani 4.000 GPU dengan atensi delapan mikrodetik antar server.

"Jaringan baru kami, UltraCluster 2.0, dapat menangani lebih dari 20.000 GPU dan memiliki latensi 25% lebih rendah. Hebatnya, jaringan ini dibangun hanya dalam tujuh bulan — Kecepatan ini tidak mungkin tercapai tanpa investasi bertahun-tahun pada perangkat dan perangkat lunak jaringan khusus buatan kami sendiri," katanya.

Secara internal, AWS menganggap UltraCluster 2.0 sebagai jaringan '10p10u' karena dapat mengirimkan data puluhan petabita per detik dengan waktu pulang-pergi kurang dari 10 mikrodetik. Jaringan baru ini menghasilkan pengurangan waktu pelatihan model minimal sebesar 15%.