Kembali menekankan bahwa industri komputasi sedang mengalami dua transisi secara bersamaan, accelerated computing dan AI (artificial intelligence)/generative AI; pada COMPUTEX 2024 di Taipei, Taiwan, NVIDIA via keynote-nya pada 2 Juni 2024 lalu memaparkan sejumlah inovasi yang bisa membantu organisasi dalam transisi bersangkutan dan mendapatkan manfaat darinya. Apalagi NVIDIA meyakini kedua transisi yang dimaksud akan mendorong terjadinya revolusi industri berikutnya. Dua di antara inovasi yang dipaparkan adalah NIM (NVIDIA Inference Microservice) dan NVIDIA Blackwell.
Accelerated computing merupakan pendekatan komputasi yang menggunakan akselerator atau prosesor spesialis/peranti keras khusus bersama dengan prosesor (CPU) untuk meningkatkan kinerja komputasi secara signifikan. Alih-alih seluruh tugas dieksekusi oleh prosesor; tugas-tugas tertentu yang eksekusinya lebih efisien oleh akselerator atau prosesor spesialis/peranti keras khusus (selanjutanya disebut akselerator) yang dimaksud, diberikan pada akselerator tersebut. GPU merupakan salah satu akselerator yang banyak dipakai pada accelerated computing.
Generative AI seperti sebutannya adalah AI yang bisa menghasilkan konten baru, misalnya teks, suara, dan gambar. Generative AI berbeda dengan predictive AI yang lebih dulu lazim digunakan. Predictive AI lebih untuk memprediksi yang akan terjadi berdasarkan data sebelumnya. Generative AI merupakan salah satu yang eksekusinya lebih efisien dilakukan oleh akselerator dibandingkan oleh prosesor. Bahkan, NVIDIA mengeklaim tanpa accelerated computing, generative AI yang kini sudah ada belum akan tercapai; tanpa accelerated computing, generative AI seperti yang tersedia sekarang baru akan tercapai pada masa depan.
NIM (NVIDIA Inference Microservice) memudahkan organisasi maupun pengembang dalam memanfaatkan generative AI untuk menenagai aplikasi.
“Kini, hampir selama dua dekade kami telah mengerjakan perihal accelerated computing. CUDA memberikan tambahan kepada suatu CPU, mengambil dan mengakselerasi pekerjaan yang suatu prosesor spesialis bisa lakukan secara jauh lebih baik. Bahkan, kinerjanya sangat luar biasa sehingga sudah sangat jelas sekarang sejalan dengan CPU scaling telah melambat dan akhir, secara substansial berhenti, kita sebaiknya mengakselerasi semuanya [menggunakan accelerated computing untuk semuanya],” ujar Jensen Huang (Founder dan CEO NVIDIA) sembari menambahkan accelerated computing bisa memberikan kinerja seratus kalinya general purpose computing konvensional dengan konsumsi daya hanya tiga kalinya dan tambahan biaya hanya setengahnya.
“Kita sekarang telah tiba bukan pada era AI melainkan pada suatu era generative AI. Namun, apa yang sesungguhnya penting dari ini? Komputer ini [server dengan accelerated computing dari NVIDIA] yang awalnya sebagai sebuah komputer super kini sudah berevolusi menjadi suatu pusat data dan memproduksi satu hal, dia memproduksi token. Dia adalah sebuah pabrik AI … Nikola Tesla menciptakan sebuah generator AC, kami menciptakan sebuah generator AI. Generator AC menghasilkan elektron, generator AI NVIDIA menghasilkan token [AI]. Keduanya memiliki peluang pasar yang besar, keduanya sepenuhnya fungible pada hampir seluruh industri, dan itulah mengapa dia adalah suatu revolusi industri baru,” sebut Jensen Huang. “Apa yang menyebabkan, dimulai dengan accelerated computing, berakibat pada AI, berakibat pada generative AI, dan sekarang sebuah revolusi industri.”
NIM
Pabrik AI yang mendorong revolusi industri baru diklaim mengubah pula model komputasi atau model penggunaan komputer: dari yang sekadar perkakas yang lebih untuk mengambil data yang sudah tersedia terlebih dahulu menjadi yang menghasilkan keahlian dan data baru. Komputer nantinya tidak lagi digunakan sekadar menjalankan peranti lunak tanpa AI atau dengan sedikit AI seperti yang lazim dilakukan dari dulu hingga saat ini, melainkan digunakan menjalankan peranti lunak yang ditenagai generative AI. NIM bisa membantu organisasi maupun pengembang untuk memanfaatkan generative AI menenagai aplikasi.
NIM diumumkan NVIDIA pada Maret 2024 dan sudah bisa diunduh. Mengutip NVIDIA, NVIDIA NIM adalah bagian dari NVIDIA AI Enterprise dan merupakan sekumpulan microservice untuk inference yang terakselerasi yang membolehkan para organisasi untuk menjalankan aneka model AI, termasuk generative AI, pada berbagai GPU NVIDIA di mana saja, baik di cloud, on-premises, workstation, maupun PC. NIM menyediakan model-model AI sebagai kontainer-kontainer teroptimasi yang bisa dijalankan tidak hanya di cloud dan pusat data on-premises, melainkan juga secara lokal di workstation dan PC. NVIDIA mengeklaim NIM memberikan suatu cara yang simpel dan terstandarisasi bagi organisasi dan pengembang untuk menambah generative AI ke aneka aplikasi.
Jensen Huang menunjukkan NVIDIA GB200 Grace Blackwell Superchip yang mengubungkan dua GPU NVIDIA Blackwell dengan satu CPU NVIDIA Grace memanfaatkan interkoneksi NVIDIA NVLink-C2C. NVIDIA GB200 Grace Blackwell Superchip menjadi salah satu sorotan NVIDIA pada COMPUTEX 2024.
Saat sesi tech demo yang diselenggarakan NVIDIA beberapa hari kemudian, NVIDIA menyebutkan bahwa tech demo Covert Protocol yang ditampilkannya kali ini telah memanfaatkan NIM dan menjalankan dua model AI secara lokal pada PC yang ditenagai kartu grafis NVIDIA GeForce RTX. Kedua model itu adalah yang untuk menerjemahkan suara pengguna ketika berbicara ke mikrofon dan melakukan transkripsi serta yang untuk animasi wajah karakter seperti sinkronisasi gerak bibir. Beberapa bulan yang lalu, tech demo serupa, seluruh model AI-nya dijalankan di cloud. Menjalankan inference dari AI secara lokal menawarkan sejumlah kelebihan seperti latensi yang lebih rendah dan tidak perlunya koneksi internet.
Lebih lanjut NVIDIA juga menegaskan bahwa lebih dari satu NIM bisa dipakai oleh organisasi dan pengembang menenagai suatu aplikasi, seperti lazimnya microservice. Organisasi dan pengembang bisa menggunakan beberapa NIM untuk memberikan fungsi-fungsi yang dinginkan pada suatu aplikasi. Bagi yang ingin mencoba atau menggunakan NIM, bisa mengunjungi ai.nvidia.com. Perihal tech demo Covert Protocol pada COMPUTEX 2024 yang mendemokan ACE (Avatar Cloud Engine) dari NVIDIA dan AI engine dari Inworld bisa dilihat di sini.
NVIDIA Blackwell
NVIDIA Blackwell adalah arsitektur GPU NVIDIA terkini. NVIDIA Blackwell diumumkan pada Maret 2024 dengan fokus ke produk untuk pusat data. Pada segmen pusat data, NVIDIA Blackwell adalah penerus dari NVIDIA Hopper. Sebagai generasi berikutnya, NVIDIA Blackwell sewajarnya menghadirakan sejumlah peningkatan dibandingkan NVIDIA Hopper. Salah satunya adalah Transformer Engine generasi kedua. Tidak hanya bisa membuat NVIDIA Blackwell menawarkan kinerja lebih tinggi untuk tingkat akurasi yang sama, Transformer Engine generasi kedua juga menghadirkan format angka FP4. NVIDA menyebutkan FP4 bisa menggandakan kinerja sembari mempertahankan tingkat akurasi yang tinggi.
Sebelumnya, dibandingkan NVIDIA Hopper, NVIDIA Blackwell disebutkan mengandung 208 miliar transistor dan bukannya 80 miliar, memiliki memori lokal HBM3E sampai 192 GB dan bukannya sampai 141 GB, serta menawarkan kinerja AI yang lima kalinya. Namun, seperti telah disebutkan NVIDIA Blackwell mendukung FP4 yang bisa menggandakan kinerja. Dengan format angka atau tingkat akurasi yang sama, NVIDIA Blackwell menawarkan kinerja AI yang seharusnya tidak sampai lima kalinya NVIDIA Hopper. Jika faktor penggandaan dari FP4 dihilangkan, sewajarnya NVIDIA Blackwell menawarkan kinerja AI yang dua setengah kalinya NVIDIA Hopper. Kinerja yang lebih tinggi membuat NVIDIA Blackwell lebih produktif sebagai pabrik AI dus makin membantu organisasi.
NVIDIA pun menambahkan bahwa energi yang diperlukan untuk melatih OpenAI GPT-4 (Generative Pre-trained Transformer 4) bila menggunakan Blackwell adalah jauh lebih hemat dibandingkan memakai Hopper. NVIDIA mengeklaim melatih OpenAI GPT-4 dengan Blackwell hanya membutuhkan energi sebesar 3 GWh, sedangkan memakai Hopper membutuhkan daya sebanyak 13 GWh.
Namun, selain GPU, NVIDIA juga mengungkapkan platform Blackwell. Platform NVIDIA Blackwell mencakup sejumlah perangkat lain selain NVIDIA Blackwell alias selain GPU. Platform NVIDIA Blackwell misalnya mencakup NVIDIA Blackwell, NVIDIA NVLink Switch generasi kelima atau NVIDIA NVLink 5 Switch, serta NVIDIA Spectrum-X800. NVIDIA NVLink Switch generasi kelima adalah interkoneksi, sedangkan NVIDIA Spectrum-X800 bisa dibilang merupakan switch Ethernet.
Ke depannya, NVIDIA berencana untuk menghadirkan GPU dan platform baru setiap tahunnya. NVIDIA berencana untuk memperkenalkan Blackwell Ultra pada tahun 2025 dan memperkenalkan Rubin pada tahun pada 2026. Selain GPU baru, teknologi interkoneksi yang lebih baru pun akan diperkenalkan plus CPU baru khusus pada platform Rubin. Platform-platform generasi berikutnya itu sewajarnya memberikan kinerja yang lebih tinggi lagi dari platform NVIDIA Blackwell.
NVIDIA MGX merupakan desain referensi server modular untuk berbagai model penggunaan, termasuk untuk NVIDIA Blackwell. Terlihat NVIDIA MGX dengan dua NVIDIA GB200 Grace Blackwell Superchip. Compute tray NVIDIA GB200 untuk NVIDIA GB200 NVL72 pun berbasiskan NVIDIA MGX.
Namun, NVIDIA menyiratkan bahwa kebutuhan akan komputasi AI, termasuk generative AI, akan terus bertumbuh sehingga para organisasi perlu untuk terus membangun pusat data dengan teknologi terbaik yang tersedia. Dengan kata lain, para organisasi tidak perlu menunggu generasi berikutnya untuk mulai membangun pusat data melainkan terus membangun pusat data setiap tahunnya agar bisa menjawab kebutuhan akan komputasi AI yang makin tinggi itu.
NVIDIA GB200 NVL72
Seperti COMPUTEX 2023 yang bisa dilihat di sini, pada COMPUTEX 2024, yang paling dikedepankan NVIDIA perihal Blackwell adalah kombinasinya dengan Grace plus klaster dari perangkat bersangkutan yang menyerupai satu unit. Disebut NVIDIA GB200 Grace Blackwell Superchip, perangkat ini menghubungkan dua GPU NVIDIA Blackwell dengan satu CPU NVIDIA Grace memanfaatkan interkoneksi NVIDIA NVLink-C2C. Adapun klaster dari NVIDIA GB200 Grace Blackwell Superchip yang menyerupai satu unit antara lain adalah NVIDIA GB200 NVL72.
NVIDIA GB200 NVL72 merupakan rack-scale system yang bisa menampung 18 compute tray NVIDIA GB200 dan 9 tray NVIDIA NVLink Switch plus menyertakan NVIDIA BlueField-3 yang adalah DPU. Masing-masing compute tray NVIDIA GB200 mengandung dua NVIDIA GB200 Grace Blackwell Superchip. Adapun tray NVIDIA NVLink Switch bertujuan untuk menghubungkan para GPU NVIDIA Blackwell yang ada. Secara keseluruhan, NVIDIA GB200 NVL72 mengandung 36 NVIDIA GB200 Grace Blackwell Superchip: 36 CPU NVIDIA Grace dan 72 GPU NVIDIA Blackwell. NVIDIA GB200 NVL72 membuat seolah-olah 72 GPU NVIDIA Blackwell menjadi satu unit GPU. Compute tray GB200 sendiri sudah pula mendukung liquid cooling.
Menariknya, NVIDIA membandingkan kinerja yang ditawarkan GB200 NVL72 terhadap DGX Hopper yang sepertinya adalah DGX H100. Sebenarnya terdapat NVIDIA DGX B200 menurut penulis lebih sesuai untuk perbandingan dengan NVIDIA DGX H100. Namun, kelihatannya NVIDIA ingin menunujukkan besarnya peningkatan yang ditawarkan dibandingkan daya yang dikonsumsi. NVIDIA ingin menekankan bahwa peningkatan kinerja AI yang ditawarkan GB200 NVL72 jauh lebih besar dari peningkatan konsumsi dayanya.
NVIDIA mengeklaim GB200 NVL72 bisa memberikan kinerja AI sebesar 1.440 petaFLOPS dengan konsumsi daya sekitar 100 kW, sedangkan DGX Hopper mampu memberikan kinerja AI sebesar 32 petaFLOPS dengan kosumsi daya sekitar 10 kW. NVIDIA GB200 NVL72 bisa memberikan peningkatan kinerja AI sebanyak 44 kali dari NVIDIA DGX Hopper dengan konasumsi daya yang hanya sembilan kali lebih tinggi. Namun, kinerja AI sebesar 1.440 petaFLOPS diperoleh bila memakai FP4. Andai mengguankan FP8, kinerja AI dari NVIDIA GB200 NVL72 menjadi 720 petaFLOPS dus 21,5 kali peningkatan terhadap NVIDIA DGX Hopper.
Delapan GPU NVIDIA Blackwell yang air cooled yang menjadi basis dari NVIDIA DGX B200. Terlihat dimensi dari heatsink masing-masing GPU yang besar. Selain menggunakan delapan GPU NVIDIA Blackwell, NVIDIA DGX B200 memanfaatkan juga dua CPU Intel Xeon Platinum 8570.
NVIDIA GB200 NVL72 juga merupakan building block dari NVIDIA DGX SuperPOD terbaru. Dengan kata lain, seperti NVDIA DGX GH200, beberapa rak yang mengandung 36 NVIDIA GB200 Grace Blackwell Superchip bisa digabungkan untuk membentuk komputer dengan jumlah NVIDIA GB200 Grace Blackwell Superchip yang lebih banyak lagi dus memberikan kinerja AI yang lebih tinggi lagi. Adapun ketersediaan, NVIDIA Blackwell saat ini belum tersedia di pasar. NVIDIA Blackwell diperkirakan akan mulai tersedia di pasar dalam bulan-bulan mendatang.
Bersama dengan Blackwell, NVIDIA turut mengungkapkan NVLink generasi kelima. NVIDIA NVLink generasi terbaru ini menawarkan bandwidth yang lebih tinggi dari generasi sebelummya. NVIDIA NVLink generasi kelima disebutkan memiliki bandwidth 100 GB/s per lajur, lebih tinggi dari NVIDIA NVLink generasi keempat yang 50 GB/s per lajur. NVIDIA Blackwell mendukung delapan belas lajur NVIDIA NVLink generasi kelima sehingga memiliki bandwitdh per GPU sejumlah 1,8 TB/s. Dibandingkan NVIDIA Hopper, bandwidth per GPU dari NVIDIA Blackwell adalah dua kalinya.
Adapun untuk NVIDIA NVLink Switch yang dipakai pada NVIDIA GB200 NVL72 telah mendukung NVIDIA NVLink generasi kelima serta mendukung sampai 576 GPU untuk koneksi secara langsung dalam sebuah domain NVIDIA NVLink. Masing-masing dari kesembilan switch tray NVIDIA NVLink memiliki 144 porta NVIDIA NVLink generasi kelima untuk koneksi ke GPU. Alhasil ke-72 GPU NVIDIA Blackwell pada NVIDIA GB200 NVL72 bisa terhubung secara penuh.
Selain NIM, Blackwell, dan NVLink generasi kelima; NVIDIA juga mengangkat sejumlah inovasi lain seperti Spectrum-X800 dan Project G-Assist. NVIDIA Spectrum-X800 diklaim membolehkan kinerja tertinggi untuk suatu jaringan Ethernet memanfaatkan NVIDIA Spectrum SN5600 yang adalah switch dan NVIDIA BlueField SuperNIC yang adalah kartu jaringan. NVIDIA Spectrum-X800 diklaim bisa memberikan bandwidth efektif sebesar 1,6 kalinya Ethernet konvensional. Sementara, NVIDIA Project G-Assist bertujuan untuk membantu para pemain gim yang menggunakan kartu grafis NVIDIA GeForce seri RTX untuk mendapatkan bantuan yang sadar akan konteks. Keduanya baru akan tersedia di pasar pada kemudian hari.