Model AI 'Visual' mungkin tidak melihat apa-apa sama sekali
Putaran terbaru model bahasa, seperti GPT-4o dan Gemini 1.5 Pro, dijelaskan sebagai 'multimodal,' mampu memahami gambar dan audio serta teks. Namun, sebuah studi baru menunjukkan bahwa mereka sebenarnya tidak melihat seperti yang mungkin Anda harapkan. Bahkan, mereka mungkin tidak melihat sama sekali.
Selain itu, meskipun klaim perusahaan itu bersifat retoris, jelas bahwa mereka ingin mengekspresikan bahwa model tersebut melihat dalam beberapa arti kata. Dan model tersebut memang melihat — tetapi dalam arti yang sama seperti melakukan matematika atau menulis cerita: mencocokkan pola dalam data masukan dengan pola dalam data pelatihan. Hal ini menyebabkan model gagal dalam cara yang sama seperti pada beberapa tugas lain yang terlihat sepele, seperti memilih angka acak.
Sebuah studi — informal dalam beberapa hal, tetapi sistematis — tentang pemahaman visual model AI saat ini dilakukan oleh peneliti di Universitas Auburn dan Universitas Alberta. Mereka menguji model multimodal terbesar pada serangkaian tugas visual yang sangat sederhana, seperti menanyakan apakah dua bentuk tumpang tindih, atau berapa banyak pentagon dalam gambar, atau huruf mana yang digarisbawahi dalam suatu kata. (Ringkasan micropage dapat dibaca di sini.)
Mereka adalah jenis hal yang bahkan seorang anak kelas satu pun akan menjawab dengan benar, namun model AI mengalami kesulitan.
'Tujuh tugas kami sangat sederhana, di mana manusia akan berkinerja 100% akurat. Kami berharap AI dapat melakukannya juga, tetapi saat ini tidak,' tulis rekan penulis Anh Nguyen dalam email kepada TechCrunch. 'Pesan kami adalah, 'Lihat, model-model terbaik ini MASIH gagal.'"
Tes bentuk yang tumpang tindih merupakan salah satu tugas penalaran visual yang paling sederhana. Diberikan dua lingkaran yang sedikit tumpang tindih, hanya bersentuhan, atau dengan jarak di antara mereka, model tidak konsisten dalam menjawab secara benar. Tentu, GPT-4o menjawab dengan benar lebih dari 95% dari waktu ketika mereka berjauhan, tetapi pada jarak nol atau kecil, hanya menjawab benar 18% dari waktu. Gemini Pro 1.5 melakukannya dengan baik, tetapi masih hanya mendapatkan 7/10 pada jarak yang dekat.
(Ilustrasi tidak menunjukkan kinerja persis dari model, tetapi dimaksudkan untuk menunjukkan ketidak konsistenan model di berbagai kondisi. Statistik untuk setiap model ada di makalah.)
Atau bagaimana dengan menghitung jumlah lingkaran yang saling bersilangan dalam sebuah gambar? Saya yakin kuda di atas rata-rata bisa melakukannya.
Mereka semua menjawab dengan benar 100% dari waktu ketika ada lima cincin, tetapi jika menambahkan satu cincin kemudian menghancurkan hasilnya. Gemini tersesat, tidak bisa menjawab dengan benar satu kali pun. Sonnet-3.5 menjawab enam… sepertiga dari waktu, dan GPT-4o sedikit di bawah setengah dari waktu. Menambahkan satu cincin lagi membuatnya semakin sulit, namun menambah satu lagi membuatnya lebih mudah bagi beberapa orang.
Tujuan dari eksperimen ini adalah untuk menunjukkan bahwa, apapun yang dilakukan oleh model-model ini, sebenarnya tidak sesuai dengan apa yang kita maksud dengan melihat. Pada dasarnya, meskipun mereka melihat dengan buruk, kita tidak akan mengharapkan gambar dengan enam, tujuh, delapan, dan sembilan cincin bervariasi sedemikian rupa dalam keberhasilan.
Tugas-tugas lain yang diuji menunjukkan pola yang serupa; bukan karena mereka melihat atau menalar dengan baik atau buruk, tetapi tampaknya ada alasan lain mengapa mereka mampu menghitung dalam satu kasus namun tidak dalam kasus lain.
Salah satu jawaban potensial, tentu saja, berada di depan mata kita: Mengapa mereka sangat baik dalam menjawab gambar dengan lima lingkaran dengan benar, tetapi gagal secara memalukan pada sisanya, atau ketika itu adalah lima pentagon? (Untuk adilnya, Sonnet-3.5 sangat baik dalam hal itu.) Karena semua gambar lima lingkaran ditampilkan dengan nyata di data pelatihan mereka: Cincin Olimpiade.
Logo ini tidak hanya diulang berulang kali dalam data pelatihan, tetapi kemungkinan dijelaskan secara detail dalam teks alternatif, panduan penggunaan, dan artikel tentangnya. Tetapi di mana dalam data pelatihan mereka Anda akan menemukan enam cincin bersilangan. Atau tujuh? Jika respon mereka menjadi petunjuk, maka tidak ada! Mereka tidak tahu apa yang mereka 'lihat,' dan tidak ada pemahaman visual sejati tentang apa itu cincin, tumpang tindih, atau setiap konsep lainnya.
Saya bertanya kepada para peneliti bagaimana pendapat mereka tentang 'ketakampuan pandangan' yang mereka tuduhkan pada model-model tersebut. Seperti istilah lain yang kita gunakan, itu memiliki kualitas antropomorfik yang tidak cukup akurat namun sulit untuk dihindari.
'Saya setuju, 'buta' memiliki banyak definisi bahkan untuk manusia dan belum ada kata untuk jenis kebutaan atau kepekaan ini bagi AI terhadap gambar yang kami tunjukkan,' tulis Nguyen. 'Saat ini, tidak ada teknologi untuk memvisualisasikan secara tepat apa yang dilihat oleh suatu model. Dan perilaku mereka adalah fungsi kompleks dari teks masukan, gambar masukan, dan banyak miliaran bobot.'"
Ia berspekulasi bahwa model-model tersebut tidak benar-benar buta namun informasi visual yang diekstrak dari suatu gambar adalah perkiraan dan abstrak, seperti 'ada sebuah lingkaran di sebelah kiri.' Namun, model-model tidak memiliki cara untuk membuat penilaian visual, sehingga respons mereka seperti orang yang diinformasikan tentang sebuah gambar namun sebenarnya tidak bisa melihatnya.
Sebagai contoh terakhir, Nguyen mengirimkan ini, yang mendukung hipotesis di atas:
Ketika sebuah lingkaran biru dan sebuah lingkaran hijau tumpang tindih (sesuai dengan pertanyaan yang meminta model menganggapnya sebagai fakta), seringkali akan ada area berwarna sian, seperti dalam diagram Venn. Jika seseorang meminta Anda pertanyaan ini, Anda atau orang pintar mana pun mungkin akan memberikan jawaban yang sama, karena itu sepenuhnya mungkin... jika mata Anda tertutup! Namun, tidak ada orang yang dengan mata terbuka akan merespons dengan cara itu.
Apakah semua ini berarti bahwa model-model AI 'visual' ini tidak berguna? Jauh dari itu. Tidak bisa melakukan penalaran dasar tentang gambar tertentu menggambarkan kemampuan mereka yang mendasar, namun bukan kemampuan spesifik mereka. Setiap model ini kemungkinan besar akan sangat akurat dalam hal-hal seperti tindakan dan ekspresi manusia, foto objek dan situasi sehari-hari, dan sejenisnya. Dan benar-benar itulah yang mereka dimaksudkan untuk diinterpretasikan.
Jika kita mengandalkan pemasaran perusahaan AI untuk memberitahu kita segalanya yang bisa dilakukan oleh model-model ini, kita akan berpikir bahwa mereka memiliki penglihatan 20/20. Penelitian seperti ini diperlukan untuk menunjukkan bahwa, tidak peduli seberapa akurat model itu dalam mengatakan apakah seseorang duduk atau berjalan atau berlari, mereka melakukannya tanpa 'melihat' dalam arti (jika boleh dikatakan demikian) yang biasanya kita maksudkan.