阿里Qwen2.5-Max超DeepSeek V3!又一國產大模型海外出圈!


3樓貓 發佈時間:2025-02-13 00:18:38 作者:6流6 Language

(2月4日)凌晨,Chatbot Arena LLM Leaderboard更新了最新一期的榜單,不久前發佈的Qwen2.5-Max直接衝進前十,超越DeepSeek V3, o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名!同時,Qwen2.5-Max在數學和編程上排名第一,在Hard prompts方面排名第二。

https://lmarena.ai/?leaderboard

阿里Qwen2.5-Max超DeepSeek V3!又一國產大模型海外出圈!-第0張

阿里Qwen2.5-Max超DeepSeek V3!又一國產大模型海外出圈!-第1張

Qwen-Max是阿里雲通義團隊對MoE模型的最新探索成果,新模型展現出極強勁的綜合性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基準測試中,Qwen2.5-Max比肩Claude-3.5-Sonnet,並幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

ChatBot Arena官方賬號 lmarena.ai 對其評價稱,阿里巴巴的Qwen2.5-Max在多個領域表現強勁,特別是在專業技術向的(編程、數學、有難度的提示詞等)方面。

據瞭解,Chatbot Arena是由LMSYS Org推出的大模型性能測試平臺,目前集成了190多種模型。該榜單採用匿名方式將大模型兩兩組隊,交給用戶進行盲測,用戶根據真實對話體驗對模型能力進行投票。因此Chatbot Arena LLM Leaderboard成為全球頂級大模型的最重要競技場。

此前,Qwen2.5-72B-Instruct發佈後也曾闖入Chatbot Arena榜單全球前十,是得分較高的中國大模型;Qwen2-VL-72B-Instruct闖入Vision榜單第九,是成績優異的開源模型。

目前,企業可在阿里雲百鍊調用Qwen2.5-Max模型的API,開發者也可在Qwen Chat平臺中免費體驗Qwen2.5-Max。

Qwen2.5-Max發佈後,在海外開發者中引發了大量關注。有網友在對比DeepSeek-V3 和 Qwen 2.5後,高度讚揚了Qwen2.5-Max的出色表現。

阿里Qwen2.5-Max超DeepSeek V3!又一國產大模型海外出圈!-第2張

還有網友打趣地為OpenAI的首席執行官Sam Altman擔憂:又一箇中國模型來了

阿里Qwen2.5-Max超DeepSeek V3!又一國產大模型海外出圈!-第3張

不少海外網友表示,中國新模型的迭代速度和質量令人驚豔。

阿里Qwen2.5-Max超DeepSeek V3!又一國產大模型海外出圈!-第4張

阿里Qwen2.5-Max超DeepSeek V3!又一國產大模型海外出圈!-第5張

作為國內較早開源自研大模型的科技大廠,阿里雲旗下的通義千問已實現全尺寸、全模態的開源,推出了包括語言大模型、多模態大模型等多種類型的開源模型。

在全球範圍內,Qwen的衍生模型數量超9萬個,已超越Llama成為全球更大的開源模型群。此次Qwen2.5-max的發佈,亦備受全球各種語言的開發者的歡迎。

“有了Qwen2.5-max,我們能對ChatGPT說再見了?!”有使用阿拉伯語的網友如是說。

阿里Qwen2.5-Max超DeepSeek V3!又一國產大模型海外出圈!-第6張

多名海外網友用英文表達了對Qwen2.5-max極致性能的驚歎。

阿里Qwen2.5-Max超DeepSeek V3!又一國產大模型海外出圈!-第7張

阿里Qwen2.5-Max超DeepSeek V3!又一國產大模型海外出圈!-第8張

阿里Qwen2.5-Max超DeepSeek V3!又一國產大模型海外出圈!-第9張

通義團隊方面表示,持續提升數據規模和模型參數規模能夠有效提升模型的智能水平。通義團隊對下一個版本的Qwen2.5-Max充滿信心,也將持續探索,除了在預訓練的scaling 上繼續探索外,還將大力投入強化學習的scaling,希望能實現超越人類的智能,驅動AI探索未知之境。


© 2022 3樓貓 下載APP 站點地圖 廣告合作:asmrly666@gmail.com