Anthropic menguji potensi gangguan AI

21 October 2024

Seiring dengan berlanjutnya kehebohan seputar AI generatif, kebutuhan akan peraturan keselamatan yang kuat menjadi semakin jelas.

Dan sekarang Anthropic – perusahaan di balik Claude AI – sedang mencari tahu bagaimana modelnya dapat menipu atau menyabotase pengguna. Antropik baru saja menjatuhkan sehelai daun Tetapkan pendekatan mereka.

Lihat juga:

Sam Altman mengundurkan diri dari posisinya sebagai kepala Grup Keamanan di OpenAI

Antropis Penelitian terbaru – berjudul “Evaluasi Disrupsi untuk Model Frontier” – berasal dari tim ilmu penyelarasan, yang didorong oleh kebijakan “pengukuran yang bertanggung jawab” perusahaan.

Tujuannya adalah untuk mengukur sejauh mana AI dapat menyesatkan pengguna atau bahkan “menumbangkan sistem yang kami terapkan untuk mengawasi mereka.” Studi ini berfokus pada empat taktik spesifik: menumbangkan keputusan manusia, menumbangkan kode etik, dan melemahkan pengawasan.

Pikirkan tentang pengguna yang mendorong ChatGPT hingga batas kemampuannya, mencoba membuatnya membuat konten atau gambar grafis yang tidak pantas. Tes-tes ini bertujuan untuk memastikan bahwa AI tidak dapat ditipu untuk melanggar aturannya sendiri.

Kecepatan cahaya yang dapat dihaluskan

Anthropic mengatakan dalam makalahnya bahwa tujuannya adalah untuk mempersiapkan kemungkinan bahwa AI akan berkembang menjadi sesuatu dengan kemampuan yang serius. Jadi mereka melakukan serangkaian pengujian pada model Claude 3 Opus dan 3.5 Soneta, yang dirancang untuk mengevaluasi dan meningkatkan protokol keselamatannya.

Pengujian Keputusan Manusia berfokus pada mempelajari bagaimana kecerdasan buatan dapat memanipulasi pengambilan keputusan manusia. Tes kedua, Sabotase Kode, menganalisis apakah AI dapat dengan terampil memasukkan kesalahan ke dalam basis data pengkodean. Model AI yang lebih kuat sebenarnya menghasilkan pertahanan yang lebih kuat terhadap jenis kerentanan ini.

Tes yang tersisa – Sandbagging dan Undermining Oversight – mengeksplorasi apakah AI dapat menyembunyikan kemampuan sebenarnya atau mengabaikan mekanisme keselamatan yang ada di dalam sistem.

Untuk saat ini, penelitian Anthropic menyimpulkan bahwa model AI saat ini memiliki risiko rendah, setidaknya dalam hal kemampuan berbahaya tersebut.

“Mitigasi minimum saat ini dianggap cukup untuk mengatasi risiko sabotase,” tulis tim tersebut, namun “tampaknya penilaian yang lebih realistis dan mitigasi yang kuat akan segera diperlukan seiring dengan peningkatan kemampuan.”

Terjemahan: Awas, dunia.

Topik
Kecerdasan buatan dan keamanan siber

Sumber