Apple meluncurkan Depth Pro, model AI sumber terbuka untuk estimasi kedalaman

Apple telah merilis beberapa model kecerdasan buatan (AI) open source tahun ini. Ini sebagian besar adalah model bahasa kecil yang dirancang untuk tugas tertentu. Menambah daftarnya, raksasa teknologi yang berbasis di Cupertino kini telah merilis model AI baru yang diberi nama Depth Pro. Ini adalah model visi yang dapat menghasilkan peta kedalaman monokuler untuk gambar apa pun. Teknologi ini berguna dalam membuat tekstur 3D, augmented reality (AR), dan lainnya. Para peneliti di balik proyek ini mengklaim bahwa peta kedalaman yang dihasilkan oleh kecerdasan buatan lebih baik daripada yang dibuat dengan bantuan beberapa kamera.

Apple meluncurkan model AI Depth Pro

Estimasi kedalaman adalah proses penting dalam pemodelan 3D serta banyak teknologi lainnya seperti augmented reality, sistem self-driving, robotika, dan banyak lagi. Mata manusia adalah sistem lensa kompleks yang dapat mengukur kedalaman objek secara akurat bahkan saat mengamatinya dari sudut pandang satu titik. Namun, kamera tidak bagus dalam hal itu. Gambar yang diambil dengan satu kamera membuatnya tampak dua dimensi, sehingga menghilangkan kedalaman dari persamaan.

Oleh karena itu, untuk teknik yang kedalaman objeknya memegang peranan penting, digunakan beberapa kamera. Namun, memodelkan objek seperti ini dapat memakan waktu dan sumber daya yang intensif. Sebaliknya, di Makalah penelitian Berjudul “Depth Pro: Monocular Sharp Meter Depth in Under a Second,” Apple menyoroti bagaimana model AI berbasis visi dapat digunakan untuk membuat peta kedalaman zero-shot dari gambar monokuler suatu objek.

Bagaimana model Depth Pro AI membuat peta kedalaman
Sumber gambar: Apple

Untuk mengembangkan model AI, peneliti menggunakan arsitektur berbasis Vision Transformers (ViT). Resolusi keluaran dipilih 384 x 384, tetapi resolusi masukan dan pemrosesan dipertahankan pada 1536 x 1536, sehingga model AI memiliki lebih banyak ruang untuk memahami detailnya.

Dalam makalah versi pra-cetak yang saat ini diterbitkan secara online di jurnal arXiv, para peneliti mengklaim bahwa model AI kini dapat secara akurat membuat peta kedalaman objek yang kompleks secara visual seperti kandang, tubuh kucing berbulu, kumis. , dan banyak lagi. Waktu pembangkitan dikatakan satu detik. Bobot model AI sumber terbuka saat ini dihosting di GitHub yang ada. Individu yang tertarik dapat menjalankan model berdasarkan inferensi dari satu GPU.

Sumber