OpenAI dan Anthropic mengungkapkan kerjasama unik dimana mereka saling mengevaluasi sistem AI masing-masing untuk menilai keselarasan dan keamanan model yang tersedia untuk publik, sebagaimana dilansir dari Engadget. Langkah kolaboratif ini mengejutkan mengingat kedua perusahaan biasanya bersaing ketat dalam race to the top industri AI.
Anthropic mengevaluasi model OpenAI untuk "sycophancy, whistleblowing, self-preservation, dan mendukung penyalahgunaan manusia", serta kemampuan yang dapat merusak evaluasi keamanan AI dan pengawasan. Hasil review menunjukkan bahwa model o3 dan o4-mini OpenAI sejalan dengan hasil model Anthropic sendiri.
Namun, evaluasi menemukan kekhawatiran penyalahgunaan potensial pada model general-purpose GPT-4o dan GPT-4.1. Anthropic juga mencatat bahwa sycophancy menjadi masalah pada semua model yang diuji kecuali o3. Penting dicatat bahwa tes ini tidak mencakup GPT-5 terbaru yang memiliki fitur Safe Completions untuk melindungi pengguna dari query berbahaya.
Sebaliknya, OpenAI menguji model Anthropic untuk instruction hierarchy, jailbreaking, halusinasi, dan scheming. Model Claude umumnya berkinerja baik dalam tes instruction hierarchy dan memiliki tingkat penolakan tinggi dalam tes halusinasi, artinya mereka cenderung tidak memberikan jawaban ketika ketidakpastian bisa menghasilkan respons yang salah.
Kerjasama ini menarik mengingat OpenAI diduga melanggar terms of service Anthropic dengan menggunakan Claude untuk membangun model GPT baru, yang menyebabkan Anthropic memblokir akses OpenAI ke tool mereka awal bulan ini.
Namun, keamanan AI menjadi isu semakin penting setelah OpenAI menghadapi gugatan wrongful death pertama terkait kasus remaja yang membahas upaya bunuh diri dengan ChatGPT selama berbulan-bulan sebelum mengakhiri hidupnya. Kasus ini menyoroti pentingnya perlindungan pengguna, terutama anak-anak.
Langkah joint assessment ini menunjukkan kesadaran industri bahwa keamanan AI memerlukan pendekatan kolaboratif, bukan hanya kompetisi. Dengan semakin banyak kritikus dan ahli hukum yang menuntut pedoman untuk melindungi pengguna, evaluasi silang seperti ini dapat menjadi standar industri untuk memastikan pengembangan AI yang bertanggung jawab.



