外观
国产大模型再突围:通义QwQ登顶
前言
最近,当所有人的目光都聚焦在DeepSeek的惊艳表现时,另一个熟悉的身影仍在默默发力——通义千问。
这个曾经的国产开源大模型“开山鼻祖”,在各方势利纷纷接入DeepSeek的今天,依然在默默推进着自己的开源之路,CodeQwen1.5、Qwen2.5-VL、万相2.1。
深度推理模型QwQ
前几天,通义发布了自己的深度推理框架QwQ,它是Qwen系列的一部分,专注于增强AI推理能力,是实验性研究模型,目前为预览版本,也在疯狂迭代中,期待后面开源更强的模型。
弱弱问一句,这个名字,确定不是颜文字或者和QQ有关?
成绩
数学竞赛突破:在MathCLUE全国高中数学竞赛评测中以83.97分获银牌,超越OpenAI o1模型近6.36分,数学推理能力较前代提升16%(网页1)。其AIMO竞赛成绩触发「Early Sharing Prize」门槛,获数学家陶哲轩认可(网页3)。
科学推理能力:SuperCLUE-Science评测得分超70分,国内排名第二,与DeepSeek R1仅差1.44分,化学推理能力提升17.75%(网页1)。GPQA评测准确率65.2%,达研究生水平(网页4、5)。
代码生成标杆:LiveCodeBench高难度代码生成评测中答对50%题目,支持复杂逻辑脚本输出(如71行p5.js动画代码),开发效率提升40%(网页4、9)。

亮点
官网上给出了8个Demo,个人感觉其中2个尤其惊艳。
官网示例:https://qwenlm.github.io/zh/blog/qwq-max-preview/
- 深度思考+联网
实时搜集互联网信息,通过深度思考进行整合,并给出结果,一气呵成。
官网示例直接针对当前热门的哪吒2进行了评价,效果如下:

官方示例为英文,以下为翻译后结果。

- Agent集成:
另一个很好的亮点就是集成了很多工具,让很多工作可以直接在QwQ中一站式完成。
官网示例选择了二维码生成器、图像生成两个工具,然后生成了一张图片和二维码,二维码也可以直接跳转到taobao.com。

资源
在线体验地址:https://chat.qwen.ai/
Blog:https://qwenlm.github.io/blog/qwq-32b-preview/
HF: https://huggingface.co/Qwen/QwQ-32B-Preview
Demo: https://modelscope.cn/studios/Qwen/QwQ-32B-preview
为什么是通义?
其实,在DeepSeek横空出世之前,通义已是国产大模型的标杆了,国外的Llama,国内的Qwen。
开源生态
- M6-OFA统一架构:业界首个实现文本、图像、视频多模态统一处理的基础模型,能耗仅为GPT-3的1%
- 魔搭社区:打造中国首个大模型自由市场,汇聚200万开发者与千余模型,下载量破7500万次
- 72B参数突破:2023年底开源的Qwen-72B,在10项测评中超越Llama2-70B,让国产模型首次跻身全球第一梯队
技术普惠
- 全尺寸覆盖:从0.5B到72B的梯度模型矩阵(前一阵还发布了一个1M的),满足从嵌入式设备到超算中心的不同需求。
- 多模态爆发:视觉模型Qwen-VL支持1小时视频理解,医疗模型Qwen-Med登顶PubMedQA榜单。
- 产业落地标杆:在长安汽车智能制造车间,通义模型将质检效率提升90%;在中华财险,代码助手年省百万级人力成本。
总结
开源标杆、多模态支持、AI程序员、最早的换衣Agent等等,通义在大模型上面已经做了很多很多。
未来,希望不仅仅是通义和DeepSeek,更多团队也能加速前行,共同推动AI大模型的发展和落地。
