ByteDance Rilis Doubao 2.0: Tantang GPT-5.1 dengan Efisiensi Biaya dan Kemampuan Agen Otonom

ByteDance secara resmi memasuki babak baru dalam perlombaan kecerdasan buatan dengan meluncurkan Doubao 2.0 pada Sabtu (14/2/2026). Model bahasa besar (LLM) generasi terbaru ini menandai pergeseran paradigma dari sekadar chatbot konvensional menuju apa yang disebut ByteDance sebagai “agent era”. Fokus utamanya adalah kemampuan menjalankan tugas-tugas kompleks di dunia nyata melalui eksekusi multi-tahap yang otonom.

Efisiensi Biaya sebagai Senjata Melawan GPT-5.1

Doubao 2.0 hadir dalam dua varian utama: versi Reguler dan versi Pro. Varian Pro dirancang khusus untuk menangani penalaran kompleks yang diklaim mampu menandingi performa GPT-5.1 milik OpenAI dan Gemini 3 Pro dari Google. Namun, keunggulan kompetitif yang ditawarkan ByteDance terletak pada struktur biaya yang jauh lebih ekonomis.

Strategi harga ini krusial mengingat tugas-tugas di era agen AI melibatkan inferensi skala besar dan generasi multi-tahap yang mengonsumsi jumlah token sangat tinggi. Dengan menekan biaya operasional per token, ByteDance berupaya mendemokratisasi penggunaan AI tingkat tinggi bagi pengembang dan perusahaan yang membutuhkan efisiensi tanpa mengorbankan daya komputasi.

Transformasi Menuju Agen Otonom

Berbeda dengan pendahulunya yang unggul dalam kompetisi akademis namun kesulitan membangun alur kerja independen, Doubao 2.0 dirancang untuk menyelesaikan tugas secara end-to-end. ByteDance memperkuat model ini dengan cakupan pengetahuan domain yang lebih luas dan kemampuan mengikuti instruksi yang lebih presisi.

Eksekusi Multi-step: Mampu memecah instruksi kompleks menjadi langkah-langkah logis yang dapat dieksekusi secara mandiri.
Konsistensi Output: Kontrol yang lebih besar terhadap hasil generasi untuk meminimalkan halusinasi pada tugas teknis.
Pemahaman Multimodal: Peningkatan signifikan dalam memproses dokumen tidak terstruktur, grafik, dan data visual yang kompleks.

Analisis Video Real-Time dan Kesadaran Spasial

Salah satu lompatan teknis paling signifikan pada Doubao 2.0 adalah peningkatan persepsi deret waktu (time-series) dan gerakan. Kemampuan ini memungkinkan model untuk melakukan analisis video secara real-time dengan tingkat kesadaran spasial yang lebih akurat. Fitur ini membuka potensi implementasi di berbagai sektor industri.

Fitur Unggulan	Deskripsi Teknis
Visual Reasoning	Kemampuan menalar konteks visual dalam ruang tiga dimensi.
Long Context	Pemrosesan input data dalam jumlah besar dengan retensi informasi yang stabil.
Real-time Video	Analisis gerakan untuk kebutuhan kebugaran hingga dukungan medis.

Saat ini, kemampuan Doubao 2.0 sudah dapat diuji oleh pengguna melalui aplikasi Doubao maupun versi web. Fitur-fitur tercanggih dari model ini disematkan dalam “Expert Mode”, yang memungkinkan pengguna mengeksplorasi kemampuan penalaran mendalam dari iterasi terbaru ByteDance ini.