OpenAI baru saja mengumumkan kemitraan superkomputer berskala besar yang melibatkan lima nama besar di industri semikonduktor dan komputasi awan yakni AMD NVIDIA Intel Microsoft dan Broadcom. Kolaborasi ini bertujuan untuk mempercepat proses pelatihan kecerdasan buatan berskala besar melalui pengembangan protokol baru bernama Multipath Reliable Connection atau MRC.
Protokol ini telah resmi dirilis melalui Open Compute Project agar dapat digunakan secara luas oleh berbagai perusahaan pengembang teknologi di seluruh dunia. Langkah strategis ini menandai era baru dalam infrastruktur jaringan yang dirancang khusus untuk menangani beban kerja komputasi paling berat di masa depan.
OpenAI miliki semua
Masalah utama dalam pelatihan model kecerdasan buatan raksasa adalah terjadinya keterlambatan pengiriman data yang dapat menghentikan seluruh proses pelatihan dan membuat unit pemrosesan grafis atau GPU menjadi menganggur. Gangguan ini biasanya disebabkan oleh kepadatan lalu lintas jaringan serta kegagalan perangkat keras yang makin sering terjadi seiring dengan membesarnya ukuran klaster komputer.
Hadirnya protokol MRC menjadi solusi fundamental untuk platform superkomputer generasi mendatang dengan meningkatkan ketahanan jaringan secara signifikan. Melalui teknologi ini proses pemindahan data dapat disebar ke ratusan jalur komunikasi tanpa gangguan sehingga kegagalan pada satu titik dapat dialihkan dalam hitungan mikrodetik.
Apa saja yang akan terjadi?
- Mekanisme Kerja: Protokol MRC memecah antarmuka jaringan 800 Gb per detik menjadi beberapa jalur yang lebih kecil masing masing sebesar 100 Gb per detik yang terhubung ke delapan sakelar berbeda secara paralel.
- Efisiensi Infrastruktur: Arsitektur baru ini memungkinkan pembangunan jaringan yang menghubungkan sekitar 131.000 GPU hanya dengan menggunakan dua tingkat sakelar saja jauh lebih efisien dibandingkan jaringan konvensional yang membutuhkan tiga hingga empat tingkat.
- Akselerasi Perangkat Keras: Standar ini memperluas teknologi Remote Direct Memory Access melalui Converged Ethernet yang memungkinkan akses memori langsung antara GPU dan CPU dengan bantuan akselerasi perangkat keras.
- Implementasi Nyata: OpenAI telah menerapkan protokol ini pada superkomputer mereka yang menggunakan GPU NVIDIA GB200 Blackwell di Texas serta pada platform komputasi awan Microsoft.
- Proyek Stargate: Protokol ini akan menjadi pondasi utama bagi superkomputer Stargate milik OpenAI yang ditargetkan memiliki kapasitas daya komputasi hingga 10 gigawatt pada tahun 2029 mendatang.
Pax insight
Kemitraan OpenAI bersama para raksasa teknologi ini membuktikan bahwa tantangan terbesar dalam pengembangan kecerdasan buatan hanya bisa diatasi melalui kolaborasi lintas industri. Dengan membuka standar MRC bagi seluruh pengembang teknologi OpenAI memberikan jalan bagi lahirnya inovasi yang lebih cepat dan efisien.
Terbukanya akses terhadap protokol ini diharapkan dapat membantu perusahaan lain dalam menyelesaikan berbagai masalah jaringan yang selama ini menghambat perkembangan model Frontier. Langkah ini menjadi tonggak sejarah baru dalam mewujudkan infrastruktur komputasi masa depan yang lebih terbuka adaptif dan bertenaga.



