Meta merilis model AI yang dapat memverifikasi kerja model AI lainnya

Pemilik Facebook, Meta, mengatakan pada hari Jumat bahwa mereka akan meluncurkan serangkaian model AI baru dari divisi penelitiannya, termasuk “evaluator belajar mandiri” yang dapat memberikan jalan menuju pengurangan keterlibatan manusia dalam proses pengembangan AI.

Peluncuran ini dilakukan setelah Meta memperkenalkan alat tersebut dalam sebuah makalah penelitian pada bulan Agustus, merinci bagaimana alat tersebut bergantung pada teknologi “rantai penalaran” yang sama yang digunakan oleh model o1 OpenAI yang baru-baru ini dirilis untuk membuat penilaian yang andal tentang respons model.

Teknik ini melibatkan pemecahan masalah kompleks menjadi langkah-langkah logis yang lebih kecil, dan tampaknya meningkatkan keakuratan jawaban terhadap masalah sulit dalam mata pelajaran seperti sains, pemrograman, dan matematika.

Peneliti meta menggunakan seluruh data yang dihasilkan AI untuk melatih model penilai, dan juga menghilangkan masukan manusia pada saat itu.

Dua peneliti Meta di balik proyek ini mengatakan kepada Reuters bahwa kemampuan menggunakan AI untuk mengevaluasi AI secara andal memberikan gambaran sekilas tentang jalur potensial menuju pembangunan agen AI otonom yang dapat belajar dari kesalahan mereka.

Banyak orang di bidang AI membayangkan agen ini sebagai asisten digital yang cukup cerdas untuk melakukan berbagai tugas tanpa campur tangan manusia.

Model yang dapat diperbaiki sendiri dapat menghilangkan kebutuhan akan proses yang mahal dan seringkali tidak efisien yang digunakan saat ini yang disebut “pembelajaran penguatan umpan balik manusia”, yang memerlukan masukan dari anotator manusia yang harus memiliki keahlian khusus untuk memberi label data secara akurat dan memverifikasi jawaban atas pertanyaan matematis dan kompleks menulis. Benar.

“Mudah-mudahan, ketika AI semakin menjadi manusia super, ia akan semakin baik dalam memvalidasi pekerjaannya, sehingga benar-benar menjadi lebih baik dari manusia pada umumnya,” kata Jason Weston, salah satu peneliti.

“Gagasan belajar mandiri dan kemampuan mengevaluasi diri sangat penting untuk mencapai gagasan mencapai tingkat manusia super AI,” katanya.

Perusahaan lain, termasuk Google dan Anthropic, juga telah menerbitkan penelitian tentang konsep RLAIF, atau Reinforcement Learning from AI Feedback. Berbeda dengan Meta, perusahaan-perusahaan ini cenderung tidak merilis model mereka untuk penggunaan umum.

Alat AI lainnya yang dirilis Meta pada hari Jumat termasuk pembaruan pada model identifikasi gambarnya, Segmen Anything, alat yang mempercepat waktu pembuatan respons LLM dan kumpulan data yang dapat digunakan untuk membantu menemukan bahan anorganik baru.

© Thomson Reuters 2024

Sumber