Mistral mengumumkan peluncuran model AI multimedia Pixtral 12B dengan visi komputer.

Mistral meluncurkan model kecerdasan buatan (AI) multimedia pertamanya yang disebut Pixtral 12B pada hari Rabu. Perusahaan AI, yang terkenal dengan model bahasa besar (LLM) open source, juga telah menyediakan model AI terbarunya di GitHub dan Hugging Face untuk diunduh dan diuji oleh pengguna. Perlu dicatat bahwa meskipun bersifat multimedia, Pixtral hanya dapat memproses gambar menggunakan teknologi visi komputer dan menjawab pertanyaan tentang gambar tersebut. Dua pembuat enkode khusus telah ditambahkan untuk fungsi ini. Itu tidak dapat menghasilkan gambar seperti model difusi stabil atau jaringan permusuhan generatif (GAN) di tengah perjalanan.

Mistral meluncurkan Pixtral 12B

Mistral mendapatkan begitu banyak ketenaran karena iklannya yang sederhana sehingga akun resminya di X (sebelumnya dikenal sebagai Twitter) merilis model AI di surat Dengan membagikan link magnetnya. Ukuran total file Pixtral 12B adalah 24 GB, dan memerlukan komputer dengan NPU atau mesin dengan GPU yang kuat untuk menjalankan model tersebut.

Pixtral 12B hadir dengan 12 miliar parameter dan dibuat menggunakan model AI Nemo 12B yang sudah ada. Mistral menyoroti bahwa pengguna juga memerlukan Gaussian Error Linear Unit (GeLU) sebagai transduser visi dan 2D Rotary Position Embedding (RoPE) sebagai encoder visi.

Perlu dicatat bahwa pengguna dapat mengunggah file gambar atau URL ke Pixtral 12B, dan harus dapat menjawab pertanyaan tentang gambar seperti mengidentifikasi objek, menghitung jumlahnya, dan berbagi informasi tambahan. Karena didasarkan pada Nemo, modelnya juga akan mahir menyelesaikan semua tugas teks biasa.

Pengguna reddit Itu telah diterbitkan Gambar menunjukkan skor benchmark untuk Pixtral 12B LLM tampaknya mengungguli Claude-3 Haiku dan Phi-3 Vision dalam kemampuan multimedia pada platform ChartQA. Performanya juga mengungguli kedua model AI yang bersaing pada platform Massive Multitask Language Understanding (MMLU) dalam hal pengetahuan dan penalaran multimodal.

Dikutip juru bicara perusahaan, TechCrunch Laporan Model Mistral AI dapat dikonfigurasi dan digunakan di bawah lisensi Apache 2.0. Artinya keluaran model dapat digunakan untuk penggunaan pribadi atau komersial tanpa batasan. Selain itu, Sophia Yang, Kepala Hubungan Pengembang di Mistral, menjelaskan dalam surat Pixtral 12B akan segera tersedia di Le Chat dan Le Platforme.

Saat ini, pengguna dapat mengunduh model AI secara langsung menggunakan tautan magnet yang disediakan perusahaan. Sebagai alternatif, bobot model juga ditambahkan Dihosting Tentang Memeluk Wajah dan GitHub Daftar.

Sumber