Riset: AI Makin Canggih, tapi Juga Makin "Halu"

Halusinasi dalam konteks kecerdasan buatan, menggambarkan situasi di mana model kecerdasan buatan memberikan informasi yang tidak tepat, alias isinya tidak sesuai dengan sumber atau keadaan yang sebenarnya.

Berdasarkan riset terbaru dari OpenAI, terungkap halusinasi ini terjadi pada model-model kecerdasan buatan terbaru mereka. Dalam pengujian ini, OpenAI menggunakan model AI terbarunya, yakni o3 dan o4-mini.

Pengujian PersonQA dilakukan dengan memberikan pertanyaan terkait tokoh-tokoh publik. Dalam uji ini, model AI o3 tercatat memberikan jawaban "halu" sebanyak 33 persen. Sedangkan model o4-mini menunjukkan tingkat halusinasi yang lebih tinggi, yakni 41 persen.

Untuk pengujian SimpleQA, kedua model ini diuji dengan pertanyaan singkat berbasis fakta. Hasilnya, model AI o3 tercatat memberikan informasi yang salah dengan tingkat halusinasi yang lebih besar, yaitu 51 persen.

Perusahaan ini juga menguji model AI terbaru mereka yang lain, yaitu GPT-4.5. Dalam pengujian SimpleQA, model AI ini mencatat tingkat halusinasi sebesar 37,1 persen. Lebih sedikit dibanding o3 dan o4-mini.

Pada pengujian ini, model AI diminta untuk merangkum artikel berita lalu dan hasilnya akan dibandingkan apakah informasi yang diringkas sesuai dengan isi artikel atau tidak.

Pada model o3, tingkat halusinasinya tercatat di angka 6,8 persen. Sementara itu, model R1 buatan perusahaan DeepSeek, memperlihatkan performa yang lebih buruk.

Dalam pengujian ini, model R1 menunjukkan tingkat halusinasi sebanyak 14,3 persen. Angka ini jauh lebih tinggi daripada model DeepSeek-V2.5 yang hanya 2,4 persen.

Kondisi serupa juga terjadi pada model AI reasoning bernama Granite 3.2 buatan IBM. Versi lebih besar dari model ini, yaitu 8B, tercatat memiliki tingkat halusinasi sekitar 8,7 persen. Sementara versi kecilnya, 2B, mencapai 16,5 persen.

Hasil pengujian ini menunjukkan bahwa model AI yang bahkan dirancang untuk "menalar" alias reasoning, justru cenderung menghasilkan jawaban alias informasi dengan tingkat halusinasi yang cukup tinggi.

Kenapa AI bisa kasih jawaban "halu"?

Menurut firma penelitian tentang AI, Transluce, salah satu penyebab mengapa model AI bisa memberikan jawaban "halu" adalah karena model seperti o3 dari OpenAI misalnya, dirancang untuk memaksimalkan kemungkinan untuk memberikan jawaban.

Dalam hal ini, ketika bot tidak memiliki keyakinan atas informasi yang ia punya, mereka akan tetap memberikan respons, alih-alih mengakui bahwa modelnya tidak mengetahui jawaban dari pertanyaan tersebut.

Selain itu, model AI dilatih berdasarkan kumpulan data tertentu yang nantinya digunakan untuk memberikan jawaban yang paling mungkin atau relevan, atas pertanyaan yang diajukan pengguna.

Oleh karena itu, jika bot menerima pertanyaan yang kemungkinan jawabannya tidak ada dari data yang ia terima sebelumnya, AI akan tetap berusaha memberikan jawaban meskipun informasi tersebut tidak sepenuhnya tepat.

Informasi ini disampaikan dengan gaya bahasa yang tampak meyakinkan dan seolah-olah benar, padahal sebenarnya sama sekali tidak berdasar. Inilah yang kemudian membuat model AI bisa memberikan jawaban "halu" alias mengada-ada.

Tanggapan perusahaan AI soal "halusinasi"

Dalam makalah penelitian yang merangkum tes internal pada model AI-nya, perusahaan menyatakan bahwa model o3 memang cenderung membuat "klaim" definitif tersendiri.

Artinya, model AI ini akan memberikan jawaban yang terkesan meyakinkan alias berhalusinasi, dibanding mengakui bahwa bot tidak mengetahui informasi yang sebenarnya.

CEO OpenAI, Sam Altman, justru menanggapi fenomena ini dengan menyebut bahwa halusinasi yang terjadi pada model AI nya merupakan bagian dari fitur chatbot, alih-alih bug yang harus diperbaiki.

Tanggapan ini sangat berbeda dengan yang dilakukan oleh perusahaan AI lain seperti Google, Microsoft, dan Anthropic. Ketiganya disebut sedang mengerjakan perbaikan untuk mengatasi masalah "halusinasi AI" ini.

Usulan peneliti untuk mengatasi "halusinasi AI"

Jadi, alih-alih menjawab dengan informasi yang keliru, disertakannya dokumen ini diharapkan bisa menjadi referensi tambahan untuk jawaban dari pertanyaan pengguna, sebagaimana dihimpun KompasTekno dari Forbes, Jumat (9/5/2025).