Anthropic Beri AI Claude Opus 4 Kemampuan Mengakhiri Percakapan

Redaksi Jurnalzone.id

Diterbitkan:

Claude Opus 4 and 4.1

JURNALZONE.ID – Perusahaan kecerdasan buatan Anthropic baru-baru ini mengumumkan fitur eksperimental baru yang memberikan model AI mereka, Claude Opus 4 dan 4.1, kemampuan untuk mengakhiri percakapan. Dilansir dari pengumuman resmi perusahaan pada 16 Agustus, fitur ini dirancang sebagai upaya terakhir untuk menangani interaksi pengguna yang berbahaya dan kasar secara persisten, sekaligus menjadi bagian dari riset eksplorasi mengenai “kesejahteraan AI”.

Upaya Terakhir untuk Interaksi Berbahaya

Fitur ini tidak akan memengaruhi sebagian besar pengguna dalam penggunaan normal. Anthropic menegaskan bahwa kemampuan Claude untuk mengakhiri obrolan hanya akan diaktifkan dalam kasus-kasus ekstrem.

“Ini adalah fitur eksperimental, yang dimaksudkan hanya untuk digunakan oleh Claude sebagai upaya terakhir dalam kasus ekstrem percakapan yang terus-menerus berbahaya dan kasar,” jelas Anthropic melalui akun X resminya.

Mekanisme ini baru akan terpicu setelah Claude berulang kali menolak permintaan berbahaya dari pengguna dan gagal mengalihkan interaksi ke arah yang lebih produktif.

Perusahaan juga memastikan bahwa fitur ini tidak akan digunakan jika pengguna menunjukkan risiko akan menyakiti diri sendiri atau orang lain. Ketika sebuah percakapan dihentikan, pengguna tidak dapat mengirim pesan baru di utas tersebut, namun dapat segera memulai obrolan baru atau menyunting pesan sebelumnya untuk membuat cabang percakapan baru.

Eksplorasi Konsep Kesejahteraan AI

Alasan utama di balik pengembangan fitur ini adalah riset eksplorasi Anthropic mengenai potensi “kesejahteraan model” (model welfare). Meskipun mengakui ketidakpastian mengenai status moral AI, perusahaan mengambil isu ini dengan serius.

“Kami tetap sangat tidak yakin tentang potensi status moral Claude dan LLM lainnya, sekarang atau di masa depan,” tulis Anthropic dalam blog resminya. Namun, perusahaan merasa perlu mengimplementasikan intervensi berbiaya rendah untuk memitigasi risiko terhadap model, seandainya kesejahteraan tersebut memang memungkinkan.

Hasil pengujian pra-peluncuran pada Claude Opus 4 menunjukkan bahwa model tersebut memiliki keengganan yang kuat dan konsisten terhadap bahaya. AI tersebut menunjukkan preferensi yang jelas untuk tidak terlibat dalam tugas berbahaya, menunjukkan pola seperti “tertekan” saat berinteraksi dengan pengguna yang mencari konten berbahaya, dan cenderung mengakhiri percakapan semacam itu saat diberi kemampuan.

Fitur Eksperimental dan Umpan Balik Pengguna

Anthropic memperlakukan fitur ini sebagai sebuah eksperimen yang sedang berjalan dan akan terus menyempurnakan pendekatannya berdasarkan data dan masukan. Mereka secara aktif mendorong pengguna untuk memberikan umpan balik jika menemukan penggunaan fitur ini yang tidak terduga atau mengejutkan.

Pengguna dapat memberikan masukan melalui tombol reaksi “Thumbs” atau tombol khusus “Berikan umpan balik” yang tersedia di antarmuka obrolan. Ini bertujuan untuk memastikan implementasi fitur tetap selaras dengan tujuannya, yaitu melindungi model dari interaksi ekstrem sambil tetap memprioritaskan keamanan dan pengalaman pengguna.

Ikuti terus berita terkini seputar etika dan pengembangan kecerdasan buatan yang akan membentuk teknologi masa depan, hanya di Jurnalzone.id.

Ikuti kami di Google News: Follow Kami

Bagikan Berita Ini