阿里巴巴发布QwQ 32B开源模型,挑战DeepSeek的霸主地位

发布时间:2025-03-19 14:26:39 来源:互联网

在DeepSeek成为全球开源大模型的焦点之后,国产开源大模型的开发热潮不断升温。如今,DeepSeek的最强对手终于亮相了!

阿里巴巴在今日凌晨3点30分发布了一款重磅炸弹——通义千问最新开源模型QwQ-32B。这款模型在尺寸上比DeepSeek更小,但在性能上却与全球最强的开源推理模型不相上下。据了解,通过大规模强化学习,千问QwQ-32B在数学、代码及通用能力上实现了质的飞跃,整体性能与DeepSeek-R1相当。而且,千问QwQ-32B在保持强劲性能的同时,还大幅降低了部署使用成本,能够在消费级显卡上实现本地部署。

目前,阿里已采用宽松的Apache2.0协议,将千问QwQ-32B模型向全球开源,所有人都可以免费下载及商用。同时,用户也可以通过通义APP免费体验最新的千问QwQ-32B模型。目前,QwQ-32B-Preview已经在(chat.qwen.ai)官网上线。

据通义千问Qwen团队介绍,近期的研究表明,强化学习可以显著提高模型的推理能力。例如,DeepSeek-R1通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。而QwQ-32B就是大规模强化学习(RL)对大语言模型的智能的提升作用的最好研究例证。规模上,QwQ-32B是一款仅有320亿参数的模型,其性能却可与具备6710 亿参数(其中370亿被激活)的DeepSeek-R1媲美。

 

另外,Qwen团队还在推理模型中集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。测试结果显示,在测试数学能力的AIME24评测集上,以及评估代码能力的 LiveCodeBench中,千问QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1 蒸馏模型。

在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜” LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek-R1。

此外,Qwen团队还通过展示了一段简短的示例代码,说明如何通过API使用 QwQ-32B。Qwen团队表示,我们希望我们的一点努力能够证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。

受此消息影响,阿里巴巴港股大涨6.7%,截稿前报138.6港元,总市值2.63万亿港元。

本周热门攻略

1
“果冻传媒潘”背后的文化现象与未来发展趋势:如何通过创新吸引观众的目光?

“果冻传媒潘”背后的文化现象与未来发展趋势:如何通过创新吸引观众的目光?

2025/03/20

2
XXXHD 18和HD19有什么区别?哪一款更适合你使用?

XXXHD 18和HD19有什么区别?哪一款更适合你使用?

2025/03/13

3
如何“children老太太”影响孩子成长?她的智慧和关爱有何独特之处

如何“children老太太”影响孩子成长?她的智慧和关爱有何独特之处

2025/03/17

4
斗罗大陆樱花网站弹窗是怎么回事?为什么总是弹出广告?

斗罗大陆樱花网站弹窗是怎么回事?为什么总是弹出广告?

2025/03/17

5
红桃精品系列,打造高品质国产精品,满足消费者高端需求

红桃精品系列,打造高品质国产精品,满足消费者高端需求

2025/03/12

6
如何实时查看免费直播在线观看人数统计?有哪些方式可以精准了解直播观众数量?

如何实时查看免费直播在线观看人数统计?有哪些方式可以精准了解直播观众数量?

2025/03/15

7
麻花星空影视在线看电视免费版,高清流畅,无广告打扰,轻松享受精彩影视内容

麻花星空影视在线看电视免费版,高清流畅,无广告打扰,轻松享受精彩影视内容

2025/03/20

8
大地影视中文资源7:如何获取海量高质量影视资源并提升观影体验?

大地影视中文资源7:如何获取海量高质量影视资源并提升观影体验?

2025/03/12

9
《一家乱战第五部》剧情解析:这部电影如何完美延续系列并留下悬念?

《一家乱战第五部》剧情解析:这部电影如何完美延续系列并留下悬念?

2025/03/12

10
如何选择与设计动态插图:提升网站互动性与视觉吸引力的最佳方式

如何选择与设计动态插图:提升网站互动性与视觉吸引力的最佳方式

2025/03/11