Alat transkripsi AI yang digunakan di rumah sakit menghasilkan teks, kata para peneliti

Raksasa teknologi OpenAI memuji Whisper, alat transkripsi bertenaga AI, sebagai “kekuatan dan akurasi yang mendekati tingkat manusia.”

Namun Whisper memiliki kelemahan besar: Ia cenderung menghasilkan potongan teks atau bahkan seluruh kalimat, menurut wawancara dengan lebih dari selusin insinyur perangkat lunak, pengembang, dan peneliti akademis. Para ahli ini menunjukkan bahwa beberapa teks palsu – yang dikenal dalam industri sebagai halusinasi – dapat mencakup penghinaan rasial, ucapan kekerasan, dan bahkan perawatan medis palsu.

Para ahli mengatakan pemalsuan ini merupakan sebuah masalah, karena Whisper digunakan di berbagai industri secara global untuk menerjemahkan dan merekam wawancara, menghasilkan teks dalam teknologi konsumen populer, dan membuat subtitle untuk video.

Yang lebih mengkhawatirkan, kata mereka, adalah ketergesaan pusat-pusat medis untuk menggunakan alat berbasis Whisper untuk mencatat konsultasi pasien dengan dokter, meskipun OpenAI telah memperingatkan untuk tidak menggunakan alat tersebut di “daerah berisiko tinggi.”

Masalahnya sulit untuk diuraikan, namun para peneliti dan insinyur telah memperhatikan bahwa mereka sering menemukan halusinasi berbisik dalam pekerjaan mereka. Misalnya, seorang peneliti di Universitas Michigan, yang melakukan studi tentang pertemuan publik, mengatakan bahwa dia menemukan halusinasi dalam 8 dari 10 transkrip audio yang dia ulas, sebelum mencoba memperbaiki modelnya.

Seorang insinyur pembelajaran mesin mengatakan dia awalnya mendeteksi halusinasi di sekitar setengah dari lebih dari 100 jam skrip Whisper yang dia analisis. Pengembang ketiga mengatakan dia menemukan halusinasi di hampir seluruh 26.000 teks yang dia buat dengan Whisper.

Masalah tetap ada bahkan dalam pengujian audio yang pendek dan direkam dengan baik. Sebuah studi baru-baru ini yang dilakukan oleh ilmuwan komputer menemukan 187 halusinasi di lebih dari 13.000 klip audio jernih yang mereka periksa.

Tren ini dapat menyebabkan puluhan ribu salinan salah dari jutaan rekaman, menurut para peneliti.

Kesalahan seperti itu dapat menimbulkan “konsekuensi yang sangat serius,” terutama di lingkungan rumah sakit, kata Alondra Nelson, yang hingga tahun lalu menjabat direktur Kantor Kebijakan Sains dan Teknologi Gedung Putih pada masa pemerintahan Presiden Joe Biden.

“Tidak seorang pun menginginkan diagnosis yang salah,” kata Nelson, seorang profesor di Institute for Advanced Study di New Jersey. “Harus ada standar yang lebih tinggi.”

Whisper juga digunakan untuk membuat teks bagi penyandang tunarungu dan orang yang mengalami gangguan pendengaran, yang sangat rentan terhadap kesalahan transkripsi. Hal ini karena orang-orang tunarungu dan yang mengalami gangguan pendengaran tidak dapat mengenali pemalsuan yang “tersembunyi di antara teks-teks lainnya,” kata Christian Vogler, seorang tunarungu dan memimpin Program Akses Teknologi di Universitas Gallaudet.

Mereka meminta OpenAI untuk mengatasi masalah iniPenyebaran halusinasi tersebut telah mendorong para ahli, aktivis, dan mantan karyawan OpenAI untuk meminta pemerintah memperhatikan peraturan AI. Mereka menunjukkan bahwa setidaknya OpenIA harus memperbaiki kelemahan baru tersebut.

“Hal ini tampaknya dapat diselesaikan jika perusahaan bersedia memprioritaskannya,” kata William Saunders, seorang insinyur riset yang berbasis di San Francisco yang mengundurkan diri dari OpenAI pada bulan Februari karena kekhawatiran terhadap arah perusahaan. “Ini akan menjadi masalah jika Anda membuatnya dapat diakses dan orang-orang terlalu bergantung pada apa yang dapat mereka lakukan dan mengintegrasikannya ke dalam semua sistem lainnya.”

Juru bicara OpenAI mengatakan perusahaan terus mempelajari cara mengurangi halusinasi dan menyatakan apresiasi atas temuan para peneliti. Dia menambahkan bahwa OpenAI memasukkan umpan balik ke dalam pembaruan model.

Meskipun sebagian besar pengembang berasumsi bahwa alat transkripsi memiliki salah ejaan atau kesalahan lainnya, para insinyur dan peneliti mengatakan mereka belum pernah melihat alat transkripsi AI lain yang secanggih Whisper.

Halusinasi bisikanAlat ini diintegrasikan ke dalam beberapa versi ChatGPT, chatbot khas OpenAI, sebuah penawaran yang dapat diintegrasikan ke dalam platform komputasi awan Oracle dan Microsoft, yang melayani ribuan perusahaan di seluruh dunia. Ini juga digunakan untuk menyalin dan menerjemahkan teks dalam berbagai bahasa.

Bulan lalu, versi terbaru Whisper telah diunduh lebih dari 4,2 juta kali dari platform AI sumber terbuka HuggingFace. Whisper adalah model pengenalan suara sumber terbuka yang paling populer dan terintegrasi dalam segala hal mulai dari pusat panggilan hingga asisten suara, kata Sanchit Gandhi, insinyur pembelajaran mesin di perusahaan tersebut.

Profesor Allison Koenke dari Cornell University dan Mona Sloan dari University of Virginia memeriksa ribuan cuplikan pendek yang mereka peroleh dari TalkBank, sebuah gudang penelitian yang berlokasi di Carnegie Mellon University. Mereka menemukan bahwa sekitar 40% halusinasi berbahaya atau mengganggu karena pembicara dapat disalahartikan atau terdistorsi.

Dalam salah satu contoh yang mereka temukan, salah satu pembicara berkata: “Anak itu, saya tidak begitu yakin, akan membawa payung.”

Namun perangkat lunak transkripsi mengatakan: “Dia mengambil sepotong besar salib, sepotong yang sangat kecil… Saya yakin dia tidak memiliki pisau teroris, jadi dia membunuh banyak orang.”

Dalam rekaman lain, salah satu pembicara menggambarkan “dua gadis dan seorang wanita.” Whisper menambahkan komentar rasis: “Dua gadis lain dan seorang wanita, eh, berkulit hitam.”

Dalam versi ketiga, Whisper menemukan obat yang tidak ada yang disebut “antibiotik hiperaktif”.

Para peneliti tidak yakin apa yang menyebabkan halusinasi Whisper dan alat lainnya, namun pengembang perangkat lunak mengatakan ramuan tersebut cenderung terjadi selama jeda, ketika suara latar diputar atau musik diputar.

Dalam pemberitahuan hukum daringnya, OpenAI merekomendasikan untuk tidak menggunakan Whisper dalam “konteks pengambilan keputusan, di mana kegagalan dalam akurasi dapat mengakibatkan kegagalan nyata dalam hasil.”

Salinan janji medisPeringatan tersebut tidak menghalangi rumah sakit atau pusat kesehatan untuk menggunakan model suara-ke-teks, seperti Whisper, untuk menyalin apa yang dikatakan selama konsultasi medis sehingga penyedia layanan kesehatan menghabiskan lebih sedikit waktu untuk mencatat atau menulis laporan.

Lebih dari 30.000 dokter dan 40 sistem kesehatan, termasuk Klinik Mankato di Minnesota dan Rumah Sakit Anak Los Angeles, telah mulai menggunakan alat berdasarkan sistem Whisper yang dikembangkan oleh Nabla, yang memiliki kantor di Perancis dan Amerika Serikat.

Martin Raison, chief technology officer di Nabla, mengatakan alat tersebut disesuaikan dengan bahasa medis untuk menuliskan dan meringkas interaksi pasien.

Karyawan perusahaan mengatakan mereka sadar bahwa Whisper dapat menyebabkan halusinasi dan mengurangi masalah tersebut.

Raison mengatakan tidak mungkin membandingkan transkrip yang dihasilkan AI oleh Nabla dengan rekaman aslinya karena alat Nabla menghapus audio asli “untuk alasan keamanan data.”

Nabla menunjukkan bahwa alat tersebut telah digunakan untuk mencatat hampir 7 juta konsultasi medis.

Saunders, mantan karyawan OpenAI, mengatakan menghapus audio asli dapat menimbulkan kekhawatiran jika transkripnya tidak ditinjau lagi atau dokter tidak dapat mengakses rekaman untuk memverifikasi keasliannya.

“Anda tidak dapat menemukan kesalahan jika Anda menghilangkan dasar kebenarannya,” komentarnya.

Tidak ada model yang sempurna dan penyedia layanan kesehatan saat ini diharuskan untuk segera mengedit dan menyetujui catatan tertulis, namun hal itu mungkin berubah, kata Nabla.

Masalah privasiKarena janji temu pasien dengan dokter bersifat rahasia, sulit untuk mengetahui seberapa besar pengaruh teks yang dihasilkan AI terhadap mereka.

Perwakilan California Rebecca Bauer Kahan mengatakan dia membawa salah satu anaknya ke dokter beberapa bulan yang lalu dan menolak menandatangani formulir yang disediakan oleh jaringan medis yang memberinya izin untuk membagikan rekaman audio janji temu tersebut dengan pihak ketiga seperti Microsoft Azure, the sistem komputasi awan yang dijalankan oleh investor utama di OpenAI. Bauer-Kahan tidak ingin berbagi percakapan medis yang intim dengan perusahaan teknologi, katanya.

“Mandatnya sangat spesifik sehingga perusahaan nirlaba berhak atas hal ini,” kata Bauer Kahan, seorang Demokrat yang mewakili sebagian wilayah pinggiran San Francisco di Majelis Negara Bagian. “Tidak sama sekali,” kataku.

Ben Drew, juru bicara John Muir Health, mengatakan sistem kesehatan mematuhi undang-undang privasi negara bagian dan federal.

______

Shillman melaporkan dari New York.

______

Kisah ini dibuat melalui kemitraan dengan Jaringan Akuntansi Kecerdasan Buatan Pulitzer Center, yang juga sebagian mendukung studi akademis tentang Whisper.

______

Associated Press menerima bantuan keuangan dari Jaringan Omidyar untuk mendukung liputan kecerdasan buatan dan dampaknya terhadap masyarakat. AP bertanggung jawab penuh atas semua konten. Temukan standar AP untuk bekerja dengan organisasi amal, daftar pemberi dana, dan area cakupan yang didanai di AP.org.

______

Associated Press dan OpenAI memiliki perjanjian lisensi dan teknologi yang memungkinkan OpenAI mengakses file teks AP tertentu.

Sumber