Alibaba Rilis Qwen 3.5: Model AI Agen yang Lebih Murah dan Ungguli GPT-5.2 di Benchmark Spesifik

Alibaba Cloud resmi memperkenalkan Qwen 3.5, iterasi terbaru dari model bahasa besar (LLM) mereka yang kini diposisikan sebagai AI Agent yang lebih otonom. Peluncuran ini menandai pergeseran fokus industri dari sekadar chatbot menjadi agen yang mampu mengeksekusi tugas kompleks di berbagai platform secara mandiri.

Efisiensi Arsitektur Mixture-of-Experts (MoE)

Salah satu keunggulan utama Qwen 3.5 terletak pada efisiensi operasionalnya. Alibaba mengklaim model ini 60 persen lebih murah dibandingkan generasi sebelumnya, namun mampu menangani beban kerja hingga delapan kali lebih besar. Hal ini dicapai melalui penggunaan arsitektur Mixture-of-Experts (MoE) dan Hybrid Attention.

Pada varian flagship Qwen 3.5-397B-A17B, meskipun memiliki total 397 miliar parameter, hanya sekitar 17 miliar parameter yang aktif selama proses inferensi. Pendekatan ini memungkinkan pemrosesan data yang sangat cepat tanpa mengonsumsi daya komputasi yang berlebihan, memberikan keseimbangan antara konteks panjang dan pendek secara optimal.

Perbandingan Benchmark: Menantang Dominasi Global

Dalam pengujian internal dan pihak ketiga, Qwen 3.5 menunjukkan performa yang sangat kompetitif, bahkan melampaui model papan atas seperti GPT-5.2 dan Gemini 3 Pro pada metrik tertentu. Berikut adalah ringkasan skor benchmark yang dirilis:

Benchmark	Qwen 3.5	GPT-5.2	Gemini 3 Pro
IFBench (Instruksi)	76,5	74,2	73,8
BrowseComp (Agen)	78,6	75,1	74,5
OmniDocBench (Dokumen)	90,8	88,5	87,9
GPQA Diamond (Penalaran)	88,4	92,4	91,0

Meskipun unggul dalam navigasi agen dan pemrosesan dokumen, Qwen 3.5 masih sedikit tertinggal dalam penalaran tingkat tinggi (GPQA Diamond) dan kemampuan multibahasa (MMMLU) dibandingkan kompetitor globalnya.

Fitur Visual Agentic dan Persaingan Industri

Fitur unggulan Visual Agentic memungkinkan Qwen 3.5 untuk melihat dan berinteraksi dengan antarmuka pengguna (UI) pada perangkat seluler maupun desktop. Kemampuan ini memungkinkannya melakukan reservasi tiket, mengelola email, hingga menjalankan alur kerja perangkat lunak profesional tanpa campur tangan manusia yang intens.

Langkah Alibaba ini memperuncing persaingan di pasar domestik China, bersaing ketat dengan Doubao 2.0 milik ByteDance yang baru saja dirilis, serta DeepSeek yang terus mengancam dengan model efisiensi tingginya. Saat ini, Qwen 3.5 sudah tersedia untuk diuji coba melalui platform Qwen Chat bagi pengguna global.