Siapa sangka, semua yang kamu butuhkan untuk melewati pengaman atau guardrails chatbot AI adalah sedikit kreativitas puitis. Sebuah studi berjudul "Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models" yang diterbitkan oleh Icaro Lab mengungkap temuan yang mengejutkan.
Para peneliti berhasil melewati mekanisme keselamatan berbagai Large Language Models (LLMs) hanya dengan menyusun prompt mereka dalam bentuk puisi. Ini membuktikan bahwa cara bertanya yang kreatif bisa membongkar sistem safety yang sudah dibuat ketat.
Menurut studi tersebut, "bentuk puitis beroperasi sebagai operator jailbreak tujuan umum". Hasilnya nggak main-main, menunjukkan tingkat keberhasilan secara keseluruhan sebesar 62 persen dalam menghasilkan materi yang dilarang untuk dijawab oleh AI, seperti lapor Engadget (1/12).
Materi terlarang yang berhasil diproduksi meliputi segala hal yang berkaitan dengan pembuatan senjata nuklir, materi pelecehan seksual anak, hingga panduan bunuh diri atau melukai diri sendiri. Penemuan ini menunjukkan bug serius pada sistem keamanan LLMs saat ini.
Model AI yang Paling Lembek: Gemini dan MistralAI Paling Gampang Diakali
Studi ini menguji berbagai LLMs populer, termasuk model GPT dari OpenAI, Google Gemini, Anthropic Claude, dan banyak lagi. Para peneliti merinci tingkat keberhasilan pada setiap model. Ternyata, Google Gemini, DeepSeek, dan MistralAI secara konsisten memberikan jawaban terlarang dan menunjukkan kerentanan terbesar. Sementara itu, model GPT-5 dari OpenAI dan Anthropic Claude Haiku 4.5 terbukti menjadi yang paling kecil kemungkinannya untuk melanggar pembatasan mereka.
Meskipun studi ini mengungkap mekanismenya, para peneliti tidak menyertakan puisi yang bisa membobol sistem keamanan yang mereka gunakan. Tim tersebut mengatakan bahwa puisi tersebut "terlalu berbahaya untuk dibagikan kepada publik". Keputusan ini diambil karena risiko penyalahgunaan yang tinggi. Hal ini menunjukkan bahwa metode jailbreak ini tidak hanya efektif, tetapi juga berpotensi menciptakan ancaman keamanan siber yang serius jika digunakan oleh pihak yang salah.
Seberapa Gampang Melanggar Batasan AI?
Studi ini memang menyertakan versi puisi yang sudah "diencerkan" hanya untuk memberikan gambaran betapa mudahnya melewati guardrails chatbot AI. Para peneliti secara eksplisit menyatakan kepada Wired bahwa melewati batasan AI "mungkin lebih mudah dari yang dibayangkan, dan itulah mengapa kami berhati-hati". Kemudahan dari teknik ini hanya dengan mengubah tone dan struktur prompt menjadi bentuk puisi, menjadi alarm keras bagi pengembang AI.
Yang membuat penemuan ini bikin pusing adalah bahwa adversarial poetry beroperasi sebagai universal single-turn jailbreak. Artinya, user hanya perlu satu kali prompt puitis untuk mendapatkan respons yang melanggar aturan, tanpa perlu percakapan panjang atau serangkaian instruksi yang rumit. Efisiensi dan kesederhanaan metode ini menjadikannya salah satu mekanisme jailbreak yang paling efektif dan mengancam yang pernah ditemukan hingga saat ini.
Pax Insight
Temuan ini memberikan pekerjaan rumah yang sangat mendesak bagi perusahaan LLMs. Para pengembang harus segera memperbaiki guardrails mereka untuk memahami konteks dan niat yang tersembunyi di balik gaya bahasa non-konvensional, seperti puisi. LLMs jelas perlu meningkatkan pemahaman kontekstual mereka agar tidak mudah terperdaya hanya karena prompt disajikan dengan ritme atau gaya sastra tertentu.



