Selasa, 2 Juni 2026 16:04 WIB

Nvidia Cosmos 3 debut, omnimodel terbuka untuk physical AI

NVIDIA resmi meluncurkan Cosmos 3, open-world foundation model yang mampu mengintegrasikan suara, teks, video, hingga aksi dengan presisi.

Agustinus Mario Damar Penulis

Nvidia Cosmos 3

Nvidia telah memperkenalkan Nvidia Cosmos 3, sebuah model open-world foundation terkini yang dirancang khusus untuk pengembangan physical AI atau pemanfaatan AI di dunia nyata. .

Sistem tunggal ini mengintegrasikan tiga kemampuan inti sekaligus, yakni penalaran visual, prediksi aksi, hingga pembuatan simulasi.

Kenapa ini penting?

Cosmos 3 tercatat sebagai omnimodel pertama di dunia yang sepenuhnya bersifat terbuka. Model ini mampu memahami dan menghasilkan teks, gambar, video, suara lingkungan, serta lintasan aksi yang alamiah.

Dengan kehadiran omnimodel ini, siklus pelatihan dan evaluasi AI fisik yang biasanya memakan waktu berbulan-bulan bisa dipangkas hanya hitungan hari.

Kemampuan utama Cosmos 3

Solusi fragmentasi data: Cosmos 3 memecahkan tantangan fundamental dalam AI fisik, yaitu keterbatasan data pelatihan riil dan tumpukan simulasi yang terfragmentasi agar robot atau kendaraan otonom dapat melakukan generalisasi di dunia nyata.
Dual-Transformer Architecture: Arsitekturnya menyatukan reasoning transformer dengan expert generation transformer. Sinergi ini membuat Cosmos 3 mampu memahami interaksi objek, pergerakan, dan hubungan spasial-temporal sebelum memprediksi lintasan aksi robot.
Pelatihan berskala masif: Model ini dilatih menggunakan salah satu dataset AI fisik multimodal terbesar di dunia, mencakup miliaran sampel lintas modalitas, sehingga menekan biaya komputasi dan kebutuhan data bagi pengembang pihak ketiga.

Implementasi bagi pengembang

Para teknisi dan pengembang kecerdasan buatan dapat memanfaatkan ekosistem Cosmos 3 ke dalam tiga fungsi operasional utama sebagai berikut:

Vision Language Model (VLM): Memahami dan melakukan penalaran logis secara mendalam di berbagai modalitas input.
World Model/Video Foundation Model: Mensimulasikan lingkungan fisik nyata dan memprediksi status dunia masa depan untuk kebutuhan evaluasi.
World Action Models Backbone: Menjadi tulang punggung digital untuk melatih robot dalam mengeksekusi tugas-tugas spesifik secara presisi.

Pax insight

Peluncuran Cosmos 3 oleh Nvidia menunjukkan pergeseran fokus industri AI dari sekadar chatbot menjadi AI yang berinteraksi langsung dengan dunia fisik.

Terlebih, dengan implementasi open-source, pengembang dan peneliti bisa langsung mengunduh draf model ini untuk melatih lengan robotik di industri atau sistem pemantauan ruang tanpa perlu membangun simulator fisik dari nol.