Anthropic memperkenalkan model AI Claude 3.5 Sonnet yang diperbarui dengan kemampuan menyelesaikan tugas di komputer

Anthropic memperkenalkan dua model kecerdasan buatan (AI) baru dan kemampuan AI baru pada hari Selasa. Pengenalan terbesar adalah versi upgrade dari Claude 3.5 Soneta yang diklaim menawarkan hasil standar yang lebih baik di berbagai kategori. Sonnet 3.5 baru juga mendapatkan kemampuan baru yang dijuluki Computer Use, yang memungkinkan dia memahami dan berinteraksi dengan komputer, pada dasarnya memungkinkan dia mengontrol dan menyelesaikan tugas di komputer. Selain itu, perusahaan AI juga mengumumkan Cloud 3.5 Haiku, penerus Cloud 3 Haiku.

Claude 3.5 Soneta telah ditingkatkan dengan menggunakan komputer

Di ruang redaksi suratAnthropic telah mengumumkan peningkatan Claude 3.5 Sonnet, yang menawarkan peningkatan kinerja dibandingkan model AI yang dirilis pada bulan Juni. Perusahaan AI mengklaim bahwa model baru ini mengungguli ChatGPT-4o dan Gemini 1.5 Pro dalam tolok ukur seperti tanya jawab tingkat pascasarjana (GPQA) Google, pemahaman bahasa multi-tugas yang komprehensif (MMLU) Pro, dan HumanEval yang berfokus pada pemrograman.

Namun, peningkatan paling signifikan terjadi pada dua tolok ukur tertentu – Software Engineering Bench (SWE-bench), yang meningkat dari 33,4 persen menjadi 49 persen, dan Tool User Bench (TAU-bench), yang meningkat dari 62,6 persen menjadi 49 pada tahun 2017. ratus. 69,2 persen. Kedua kriteria tersebut terkait dengan kinerja agen AI.

Kemampuan agen AI ini relevan sejak Anthropic memperkenalkan kemampuan kegunaan komputer baru yang memungkinkan model AI mengontrol dan menyelesaikan tugas di komputer. Saat ini, kemampuan ini tersedia melalui API yang hanya berfungsi pada Claude 3.5 Sonnet.

Dengan penggunaan komputer, Claude mempelajari keterampilan komputer secara umum. Dengan menggunakan perangkat lunak khusus, ia dapat meniru penekanan tombol, klik tombol, dan pergerakan kursor. Dengan menambahkan kemampuan visi komputer pada model AI, Claude 3.5 Sonnet dapat melihat apa yang terjadi di layar, dan memproses informasi untuk melakukan tugas tertentu. Fitur ini akan bekerja berdasarkan perintah yang diberikan kepada AI.

Misalnya, pengguna dapat meminta model bahasa besar (LLM) untuk memesan tiket di situs web, mengisi aplikasi, atau bahkan mengunduh dan menginstal aplikasi. Meskipun alat khusus yang dapat mengotomatiskan beberapa tugas komputer sudah ada, alat serba guna yang beroperasi berdasarkan perintah bahasa alami merupakan tonggak penting bagi teknologi AI generatif.

Namun Anthropic mengakui bahwa kemampuan ini masih dalam tahap awal dan terdapat beberapa keterbatasan. “Beberapa tindakan yang dilakukan orang dengan mudah – seperti menggulir, menyeret, dan memperbesar – saat ini menghadirkan tantangan bagi Cloud,” perusahaan menekankan. Saat ini, pengembang disarankan untuk menggunakan kemampuan ini hanya untuk tugas-tugas berisiko rendah.

Dengan kemampuan otomatisasi komputer, terdapat kekhawatiran mengenai apakah model AI dapat dirancang untuk melakukan aktivitas jahat dan ilegal. Perusahaan belum mengungkapkan rincian apa pun tentang keamanan model kecerdasan buatan dan keselamatan pengguna saat ini. Perlu dicatat bahwa Claude 3.5 Sonnet yang ditingkatkan tersedia untuk semua pengguna dan pengembang dapat mengembangkan kemampuan ini melalui Anthropic API, Amazon Bedrock, dan Vertex AI Google Cloud.

Cloud 3.5 Haiku diumumkan

Pengumuman besar lainnya adalah peluncuran Cloud 3.5 Haiku. Untuk konteksnya, Haiku adalah seri model AI termurah dan tercepat dari Anthropic. Perusahaan AI tersebut kini mengklaim bahwa kemampuan penerus Claude 3 Haiku ini lebih unggul dibandingkan Claude 3 Opus, model andalan perusahaan sebelumnya. Artinya, pengguna kini dapat mengakses model AI yang kuat dengan harga yang jauh lebih murah.

Claude 3.5 Haiku akan dirilis akhir bulan ini di berbagai platform termasuk API milik perusahaan, Amazon Bedrock, dan Vertex AI Google Cloud. Awalnya akan tersedia sebagai formulir teks saja dan nantinya akan diperbarui untuk menerima gambar sebagai masukan.

Sumber