Studi Apple mengungkapkan kelemahan AI utama di OpenAI, Google, dan Meta LLM

Model bahasa besar (LLM) mungkin tidak secerdas kelihatannya, menurut A Dia belajar Dari peneliti Apple.

Mahasiswa MBA dari OpenAI, Google, Meta dan lainnya telah dipuji atas kemampuan penalaran mereka yang mengesankan. Namun penelitian menunjukkan dugaan kecerdasan mereka mungkin lebih mirip dengan “pencocokan pola yang kompleks” daripada “penalaran logis yang sebenarnya.” Ya, bahkan model inferensi lanjutan OpenAI.

Standar yang paling umum untuk keterampilan penalaran adalah tes yang disebut GSM8K, namun karena sangat umum, terdapat risiko kontaminasi data. Ini berarti bahwa siswa LLM mungkin mengetahui jawaban tes karena mereka telah dilatih dalam jawaban tersebut, bukan karena kecerdasan bawaan mereka.

Lihat juga:

Putaran pendanaan OpenAI perusahaan bernilai $157 miliar

Untuk menguji hal ini, penelitian ini mengembangkan tolok ukur baru yang disebut GSM-Symbolic yang mempertahankan esensi masalah inferensi, tetapi mengubah variabel, seperti nama, angka, dan kompleksitas, serta menambahkan informasi yang tidak relevan. Apa yang mereka temukan adalah “kerapuhan” yang mengejutkan dalam kinerja LLM. Studi ini menguji lebih dari 20 model, termasuk o1 dan GPT-4o OpenAI, Gemma 2 Google, dan Llama 3 Meta. Pada setiap model, performa model menurun ketika variabel diubah.

Akurasi menurun beberapa poin persentase ketika nama dan variabel diubah. Seperti yang dicatat oleh para peneliti, model OpenAI memiliki kinerja lebih baik dibandingkan model sumber terbuka lainnya. Namun, varians tersebut dianggap “tidak dapat diabaikan”, yang berarti bahwa varians nyata tidak boleh terjadi. Namun, hal-hal menjadi sangat menarik ketika para peneliti menambahkan “frasa yang tampaknya relevan tetapi pada akhirnya tidak penting” ke dalam campuran tersebut.

Kecepatan cahaya yang dapat dihaluskan

Lihat juga:

Bocoran tersebut menunjukkan bahwa peningkatan Intelijen Apple gratis kemungkinan akan segera hadir

Untuk menguji hipotesis bahwa mahasiswa MBA lebih mengandalkan pencocokan pola daripada berpikir sebenarnya, penelitian ini menambahkan pernyataan yang berlebihan ke dalam soal matematika untuk melihat bagaimana pola-pola tersebut berinteraksi. Misalnya, “Oliver memetik 44 buah kiwi pada hari Jumat. Kemudian dia memetik 58 buah kiwi pada hari Sabtu. Pada hari Minggu, dia memetik buah kiwi dua kali lebih banyak daripada yang dia petik pada hari Jumat, Namun lima di antaranya sedikit lebih kecil dari rata-rata. Berapa banyak kiwi yang dimiliki Oliver?

Yang menyebabkan penurunan kinerja yang signifikan di semua bidang. Pratinjau o1 OpenAI memberikan hasil terbaik, dengan penurunan akurasi sebesar 17,5 persen. Itu masih sangat buruk, tapi tidak seburuk model Phi 3 dari Microsoft, yang kinerjanya 65 persen lebih buruk.

Lihat juga:

ChatGPT-4, Gemini, MistralAI, dan lainnya digabungkan dalam alat AI pribadi ini

Dalam contoh kiwi, penelitian tersebut mengatakan bahwa siswa LLM cenderung mengurangi lima buah kiwi yang lebih kecil dari persamaan tanpa memahami bahwa ukuran kiwi tidak ada hubungannya dengan soal. Hal ini menunjukkan bahwa “model cenderung mengubah data menjadi proses tanpa benar-benar memahami maknanya,” memvalidasi hipotesis peneliti bahwa siswa LLM mencari pola dalam penalaran masalah, daripada memahami konsep secara bawaan.

Penelitian ini tidak berbasa-basi mengenai temuannya. Menguji model ke tolok ukur yang mencakup informasi yang tidak relevan “mengungkapkan kelemahan serius dalam kemampuan LLM untuk benar-benar memahami konsep matematika dan membedakan informasi yang relevan untuk memecahkan masalah.” Namun, perlu dicatat bahwa penulis penelitian ini bekerja untuk Apple yang jelas merupakan pesaing utama Google, Meta, dan bahkan OpenAI – meskipun ada kemitraan antara Apple dan OpenAI, Apple juga mengerjakan model AI-nya sendiri.

Namun, kurangnya keterampilan berpikir formal di kalangan pemegang LLM tidak dapat diabaikan. Pada akhirnya, ini adalah pengingat yang baik untuk meredam hype seputar AI dengan skeptisisme yang sehat.

Topik
Kecerdasan buatan Apple



Sumber