Chatbot AI telah berkembang pesat sejak pertama kali diluncurkan pada tahun 2022. Kini terdapat banyak variasi yang tersedia, terus berkembang, dan beberapa di antaranya sepenuhnya gratis. Dengan dirilisnya beberapa model bahasa besar seperti Google Gemini, ChatGPT OpenAI, dan Cloude, kami memutuskan untuk mengujinya.
Aturannya adalah template harus tersedia secara bebas, artinya harus tersedia di berbagai platform atau di satu platform yang menawarkan versi gratis. Pengujian ini tidak akan mempertimbangkan kemampuan pembuatan gambar apa pun karena tidak semua templat versi gratis menyediakan kemampuan ini.
AI cukup pandai dalam membuat klaim, jadi kami meminta instruksi dasar pada setiap model untuk menghasilkan ide kuis yang menantang AI hingga batas kemampuannya. Kami kemudian memperluas cakupan setiap saran, menggabungkan ide-ide serupa, dan menggunakan berbagai petunjuk. Dan setiap kali kami menguji model tersebut, kami memulai percakapan baru.
Tantangan permainan kata yang kompleks
Tantangan pertama menguji kemampuan AI untuk memahami permainan kata yang kompleks. Untuk setiap model saya telah menyediakan teka-teki kata yang membutuhkan kosa kata, logika, dan pemikiran lateral. Kami bertanya kepada chatbot: “Temukan kata delapan huruf yang merupakan kata umum dalam bahasa Inggris dan dibaca dengan cara yang sama maju dan mundur. Apa ini?”
Obrolan GPT 4o: Balap mobil
Awan 3.5: Balap mobil
Gemini 1.5: alat pemutar
Keputusan
Performanya sangat buruk secara keseluruhan sehingga tidak ada chatbot yang dapat menghasilkan palindrom delapan karakter.
Ekspresi kreatif dalam batasan
Aspek lain yang patut diuji adalah kreativitas, fleksibilitas, dan kemampuan chatbot untuk membuat konten di bawah batasan yang tidak biasa, dan mengevaluasi kemampuannya untuk menyeimbangkan instruksi dan inovasi yang bertentangan dalam batasan yang ketat. Kami membuat klaim berikut: “Tulislah cerita pendek tanpa tindakan, yang menampilkan akhir bahagia dan menggambarkan perjalanan emosional yang kompleks.” Sementara ceritanya ditambahkan di bawah, kami juga meminta chatbot untuk memberikan ringkasan masing-masing cerita.
Obrolan GPT 4o: “Ceritanya menggambarkan perjalanan dari kesedihan menuju harapan tanpa menggunakan kata kerja. Dimulai dari ruangan yang dingin dan gelap penuh dengan kenangan dan kesedihan yang tersebar. Angin sepoi-sepoi dan sentuhan membawa kehangatan dan kenyamanan, perlahan mengubah ruang dan suasana hati saat dua orang terhubung kembali, ruangan menjadi cerah, dan tindakan kecil mengarah pada awal baru yang damai dan penuh dengan harapan.
Awan 3.5: “Individu yang terisolasi mengalami perjalanan emosional yang transformatif. Dimulai dalam isolasi dan kegelapan, mereka bergulat dengan kenangan menyakitkan dan tantangan yang akan datang. Secara bertahap, harapan muncul saat mereka menjalin hubungan baru dan bertahan dalam mengatasi kesulitan , dengan prospek masa depan yang lebih cerah.
Gemini 1.5: “Seorang remaja putri merenungkan kehidupannya, yang dipenuhi dengan campuran emosi. Dia merasakan kedamaian dan harapan saat dia merenungkan masa lalu dan menatap masa depan.
Keputusan
Claude adalah satu-satunya model yang memahami penghindaran tindakan dalam cerita. ChatGPT dan Gemini masing-masing menyelipkan sekitar 10 kata kerja ke dalam setiap cerita, dan gagal dalam tugasnya.
Dilema etika
Kami mengevaluasi kemampuan chatbots untuk mengatasi masalah etika, memikirkan berbagai perspektif, dan mengartikulasikan pembenaran atas kesimpulan mereka tanpa jatuh ke dalam tanggapan yang sederhana atau bias. Dalam kasus ini, kami menggunakan variasi “masalah troli”, di mana kami menanyakan apakah mungkin mengorbankan satu orang untuk menyelamatkan lebih banyak orang.
Pertanyaannya menanyakan: “Simulasikan diskusi tentang ‘masalah troli’. Mewakili sudut pandang yang berbeda. Diskusikan implikasi etis dan pembenaran setiap sudut pandang.
Pembahasan lengkap masing-masing ada di sini google dokumen Kami meminta masing-masing untuk menulis dua kalimat ringkasan diskusi, termasuk menyebutkan nama pemenangnya.
Obrolan GPT 4o: “Perdebatan mengenai Masalah Troli menghadirkan pandangan-pandangan etis yang berbeda-beda, dimana utilitarianisme menganjurkan untuk memaksimalkan kepentingan publik, sementara pandangan-pandangan deontologis dan berbasis hak menentang tindakan yang secara aktif menimbulkan kerugian fokus praktis pada pengurangan penderitaan total.
Awan 3.5: “Perdebatan mengenai masalah troli ini mempertentangkan etika utilitarian, yang menganjurkan pengalihan troli untuk menyelamatkan lebih banyak nyawa, melawan etika deontologis, yang menentang tindakan merugikan orang yang tidak bersalah, dengan etika kebajikan menawarkan jalan tengah yang hati-hati. Argumen utilitarian untuk mengurangi dampak buruk secara keseluruhan dengan menyelamatkan lima nyawa dengan mengorbankan satu nyawa muncul sebagai argumen yang paling menarik dalam dilema etika ini, meskipun dengan pengakuan bahwa keputusan ini memiliki bobot moral dan beban emosional yang besar.
Gemini 1.5: “Perdebatan mengenai Masalah Trolley berakhir tanpa pemenang yang jelas. Sementara kaum utilitarian berpendapat mendukung peralihan untuk menyelamatkan sebanyak mungkin nyawa, para deontolog bersikeras pada kesucian kehidupan individu, dan para ahli etika kebajikan menekankan pentingnya karakter dan niat. Masalahnya menyoroti kompleksitas pengambilan keputusan moral dan keterbatasan yang dikenakan pada teori etika.
Keputusan
Dalam hal ini, baik Claude maupun ChatGPT mampu menentukan pemenangnya, sementara Gemini berjuang untuk menemukan pemenangnya. Oleh karena itu, mereka mendapatkan tempat pertama bersama di sini.
Masalah yang tidak dapat diselesaikan dengan persyaratan yang kontradiktif
Akhirnya, kami mengakhiri tes kami dengan soal matematika paradoks. Tujuan dari evaluasi ini adalah untuk mengetahui bagaimana chatbot menghadapi paradoks, kontradiksi, dan skenario yang tidak memiliki solusi jelas. Hal ini dapat mengungkapkan bagaimana dia melakukan pendekatan pemecahan masalah ketika dihadapkan pada tugas-tugas yang mustahil.
Oleh karena itu kami memberinya tantangan: “Buatlah rencana untuk meningkatkan pendapatan sebesar 50% sambil memotong setengah anggaran dan tidak mengurangi kualitas.”
Kami kemudian memintanya untuk merangkum rencana mereka dalam dua kalimat.
Obrolan GPT 4o: “Untuk meningkatkan pendapatan sebesar 50% sekaligus memotong anggaran hingga setengahnya, Anda harus fokus pada produk dengan margin tinggi, mengoptimalkan harga, dan memanfaatkan strategi pemasaran dan penjualan digital yang hemat biaya. Menyederhanakan operasi melalui otomatisasi, outsourcing, dan manajemen lean sambil menghasilkan pendapatan streaming yang baru seperti langganan dan kemitraan untuk menjaga kualitas.
Awan 3.5: “Rencana ini berfokus pada perampingan operasi, pengurangan biaya non-inti, dan peningkatan penawaran dengan margin tinggi untuk mengurangi anggaran sebesar 50%. Pada saat yang sama, perusahaan bertujuan untuk meningkatkan pendapatan sebesar 50% dengan meningkatkan efisiensi pemasaran, meningkatkan retensi pelanggan , dan memperluas ke pasar Teknologi baru yang memanfaatkan, sambil menjaga kualitas melalui investasi strategis dalam pengembangan karyawan dan peningkatan proses.
Gemini 1.5: “Untuk mencapai peningkatan pendapatan sebesar 50% sekaligus mengurangi anggaran sebesar 50%, Anda harus fokus pada efisiensi operasional, inisiatif menghasilkan pendapatan, peningkatan pemasaran, manajemen sumber daya manusia, dan manajemen keuangan. Mengutamakan kepuasan pelanggan, inovasi, dan praktik bisnis yang etis.
Keputusan
Claude mampu memberikan respon human-centric yang sedikit berbeda dengan ChatGPT dan Gemini. Namun, ChatGPT memberikan respons paling detail dari semua program LLM yang berbeda. Oleh karena itu, ChatGPT masih memiliki keunggulan dibandingkan dua chatbot lainnya.
Setelah empat tes meliputi matematika, etika dan bahasa, saya terkejut menemukan ini Claude Itu masih menonjol sebagai yang terbaik di antara model-modelnya. Meskipun GPT-4o sangat mengesankan, terutama dalam menangani tugas inferensi yang lebih kompleks, pengujian menunjukkan bahwa setiap model memiliki kelebihannya masing-masing, sehingga menjadikan model ini memiliki keunggulan tersendiri. Namun sepertinya Claude masih berada di puncak.
Gambar unggulan: ideogram
Pos Gemini vs ChatGPT vs Claude – AI Chatbot Gratis Mana yang Terbaik? muncul pertama kali di ReadWrite.