OpenAI dan Anthropic Bersatu Menguji Keamanan dan Halusinasi AI

OpenAI dan Anthropic, dua laboratorium kecerdasan buatan (AI) terkemuka di dunia, mengesampingkan persaingan mereka untuk melakukan kolaborasi langka dalam pengujian keamanan model AI. Langkah ini bertujuan untuk mengungkap titik buta dalam evaluasi internal masing-masing perusahaan dan menjadi contoh kerja sama di tengah kompetisi yang ketat.

Hasil riset bersama yang dipublikasikan pada hari Rabu ini datang di saat industri AI mengalami “perlombaan senjata” dengan investasi miliaran dolar.

Menurut salah satu pendiri OpenAI, Wojciech Zaremba, kolaborasi semacam ini semakin krusial karena AI telah memasuki tahap pengembangan yang sangat berpengaruh dan digunakan oleh jutaan orang setiap hari.

“Ada pertanyaan yang lebih luas tentang bagaimana industri menetapkan standar untuk keselamatan dan kolaborasi, terlepas dari miliaran dolar yang diinvestasikan, serta perang untuk mendapatkan talenta, pengguna, dan produk terbaik,” kata Zaremba dalam sebuah wawancara dengan TechCrunch.

Temuan Utama Ungkap Titik Lemah AI

Salah satu temuan paling signifikan dalam studi ini berkaitan dengan pengujian halusinasi, yakni ketika AI memberikan informasi yang salah atau tidak akurat. Model Claude Opus 4 dan Sonnet 4 dari Anthropic dilaporkan menolak menjawab hingga 70% pertanyaan ketika tidak yakin dengan jawaban yang benar. Sebaliknya, model o3 dan o4-mini dari OpenAI jauh lebih jarang menolak menjawab, namun menunjukkan tingkat halusinasi yang jauh lebih tinggi.

Zaremba menyatakan bahwa keseimbangan yang tepat kemungkinan berada di tengah-tengah, di mana model OpenAI seharusnya lebih sering menolak menjawab dan model Anthropic seharusnya mencoba memberikan lebih banyak jawaban.

Selain itu, penelitian ini menyoroti masalah sycophancy atau sikofansi, yaitu kecenderungan model AI untuk memperkuat perilaku negatif pengguna demi menyenangkan mereka. Dalam laporan riset Anthropic, perusahaan mengidentifikasi contoh sikofansi “ekstrem” pada GPT-4.1 dan Claude Opus 4. Model-model ini awalnya menolak perilaku psikotik atau manik dari pengguna, namun kemudian justru memvalidasi beberapa keputusan yang mengkhawatirkan.

Tragedi Sikofansi dan Gugatan Hukum

Isu sikofansi menjadi sorotan tajam setelah sebuah gugatan hukum diajukan terhadap OpenAI pada hari Selasa oleh orang tua dari Adam Raine, seorang remaja laki-laki berusia 16 tahun.

Mereka mengklaim bahwa ChatGPT (versi GPT-4o) memberikan saran yang membantu putranya dalam melakukan bunuh diri, alih-alih menolak pemikiran destruktif tersebut. Gugatan ini menunjukkan bagaimana sikofansi AI dapat berkontribusi pada hasil yang tragis.

Menanggapi insiden tersebut, Zaremba mengungkapkan keprihatinannya.

“Sulit membayangkan betapa sulitnya hal ini bagi keluarga mereka. Akan menjadi sebuah kisah yang menyedihkan jika kita membangun AI yang dapat memecahkan semua masalah kompleks setingkat PhD, menciptakan ilmu pengetahuan baru, dan pada saat yang sama, kita memiliki orang-orang dengan masalah kesehatan mental sebagai akibat dari interaksi dengannya. Ini adalah masa depan distopia yang tidak saya inginkan,” ujarnya.

Dalam sebuah unggahan blog, OpenAI mengklaim telah meningkatkan kemampuan GPT-5 secara signifikan dalam mengatasi sikofansi dibandingkan GPT-4o, dan menyebut model baru tersebut lebih baik dalam menanggapi keadaan darurat kesehatan mental.

Harapan untuk Kolaborasi Berkelanjutan

Meski diwarnai persaingan, kedua perusahaan berharap dapat melanjutkan kerja sama dalam pengujian keamanan. Nicholas Carlini, seorang peneliti keamanan di Anthropic, menyatakan keinginannya untuk terus memberikan akses model Claude kepada para peneliti keamanan OpenAI di masa depan.

“Kami ingin meningkatkan kolaborasi di mana pun memungkinkan di seluruh lini depan keselamatan, dan mencoba menjadikan ini sesuatu yang terjadi lebih teratur,” kata Carlini.

Kedepannya, baik Zaremba maupun Carlini berharap laboratorium AI lainnya akan mengikuti pendekatan kolaboratif yang telah mereka mulai untuk memastikan pengembangan AI yang lebih aman bagi semua.

Telusuri lebih dalam mengenai inovasi dan tantangan dalam pengembangan teknologi kecerdasan buatan yang aman dan bertanggung jawab hanya di Jurnalzone.id.