Alibaba Rilis Model AI Penalaran Open-Source Baru, Ungguli OpenAI dan Google

Perusahaan teknologi Alibaba merilis model kecerdasan buatan (AI) penalaran (reasoning) baru bernama Qwen3-235B-A22B-Thinking-2507.
Model AI open-source (terbuka) ini tergolong model kelas tinggi, sehingga kemampuannya dirancang cerdas dan tangguh, dan diklaim mampu mengungguli model AI sejenis seperti dari Google maupun OpenAI.
Secara umum, model terbaru dari seri Qwen3-Thinking ini terbilang luar biasa karena unggul di sebagian besar pengujian. Performanya juga tangguh di berbagai aspek, mulai dari penalaran yang kompleks hingga pembuatan kode (coding).
Karena itu, kemampuan Qwen3-235B-A22B-Thinking-2507 disebut sebagai "standar baru" untuk model AI open-source.
Dalam pengujian penalaran matematika dan logika tingkat lanjut, model AI Alibaba ini terbukti unggul. Hal ini terlihat dari hasil pengujian dari benchmark AIME25, di mana Qwen3-Thinking-2507 meraih skor 92,3.
Skornya tercatat lebih tinggi dibanding model AI sejenis yang seperti Gemini-2.5 Pro dari Google, yang memiliki skor 88,0 untuk pengujian yang sama.
Hasil benchmark model AI penalaran open-source Qwen3-235B-A22B-Thinking-2507 dibanding model AI sejenis lainnya
Model AI Alibaba ini juga diklaim mumpuni dalam mengembangkan software atau coding. Kemampuan ini dibuktikan melalui benchmark LiveCodeBench v6, di mana Qwen3-Thinking-2507 mendapatkan skor sebesar 74,1. Angkanya melampaui Gemini-2.5 Pro (72,5) dan o4-mini OpenAI (71,8).
Keunggulan lainnya yaitu kemampuan model AI dalam memberikan jawaban sesuai preferensi manusia.
Di platform benchmark Arena-Hard v2 yang menilai seberapa bagus model AI seperti chatbot menjawab pertanyaan dari sudut pandang manusia, Qwen3-Thinking-2507 mendapat skor 79,7.
Skornya tercatat paling tinggi dibanding Gemini 2.5 Pro (72,5) atau Deepseek-R1-0528 (72,2).
Secara teknis, Qwen3-Thinking-2507 didasarkan pada arsitektur Mixture-of-Experts (MoE), yaitu arsitektur dan dirancang lebih efisien dan fleksibel dalam menangani berbagai tugas dan pertanyaan.
Dengan MoE, model ini bisa hanya mengaktifkan subset 22 miliar parameter, walaupun memiliki total 235 miliar parameter, untuk tugas tertentu.
Qwen3-Thinking-2507 menawarkan jendela konteks (context window) 262.144 token. Context window adalah jumlah token yang bisa diproses model AI dalam satu interaksi, mencakup token input dan output-nya.
Pakai pendekatan baru
Alibaba menggunakan pendekatan baru dalam mengembangkan Qwen3-Thinking-2507. Perusahaan asal China ini tidak lagi memakai teknik "hybrid thinking" seperti pada model Qwen3 versi sebelumnya.
Dengan teknik hybrid thinking, pengembang perlu secara manual beralih antara mode instruksi cepat (Instruct) atau penalaran mendalam (Thinking), memakai token khusus. Namun cara ini cukup merepotkan dan hasilnya kurang konsisten.
Perubahan teknik ini juga dipertimbangkan Alibaba berdasarkan masukan dari pengembang.
"Setelah berdiskusi dengan komunitas dan merefleksikan masalah ini, kami memutuskan untuk meninggalkan mode hybrid thinking. Kami kini melatih model Instruct dan Thinking secara terpisah untuk kualitas terbaik," kata tim Qwen.
Pendekatan pelatihan model secara terpisah ini dinilai bisa lebih optimal. Misalnya, model Instruct bisa diatur untuk kecepatan dan eksekusi perintah secara optimal, sementara model Thingking dilatih untuk tugas penalaran multi-step kompleks.
Qwen3-Thinking-2507 sudah tersedia di platform AI Hugging Face dan dapat diakses melalui API.
Harganya dibanderol 0,70 dollar AS (sekitar Rp 11.453) per sejuta token input dan 8,40 dollar AS (sekitar Rp 137.443) per sejuta token output, dihimpun KompasTekno dari WinBuzzer, Senin (28/7/2025).