外观
冲击硅谷,DeepSeek崛起全了解
前言
仅用1/11的算力成本训练出超越GPT-4o的大模型,用开源生态撼动闭源霸权,甚至让英伟达单日蒸发近6000亿美元市值。
无论是社交媒体上的讨论,还是各大科技媒体的报道,DeepSeek都是最近当之无愧的焦点。
希望本文可以让大家对DeepSeek有一个全面的了解。
简介
DeepSeek是由中国顶尖AI团队深度求索自主研发的通用大语言模型体系,其独立研发始于2023年,致力于突破认知智能的边界。
作为国内首个全面对标GPT-4技术架构的AI大模型,DeepSeek系列涵盖从7B到超千亿参数的完整模型矩阵,在数学推理、代码生成、多轮对话、深度推理等核心能力上达到国际领先水平,主要模型包括:DeepSeek-V2、DeepSeek-V3、DeepSeek-R1等。
来历
- 2019年,“幻方量化”成立AI公司,自研“萤火一号”,总投资近2亿元,搭载1100块GPU。
- 2021年,“萤火二号”增加投入到10亿元,搭载了约1万张英伟达A100显卡。
- 后续,幻方在亚太第一个拿到 A100卡,并成为拥有超过1万枚GPU的企业。国内,除几家头部大厂,另一家就是幻方。
- 2023年4月11日, 宣布做大模型。
- 2023年5月,大模型团队独立,命名为“深度求索”。
- 2023年7月17日,正式成立深度求索公司,专注于做真正人类级别的人工智能。
成就
低成本训练出高性能模型
DeepSeek-V3模型以1/11的算力、仅2000个GPU芯片训练出性能超越GPT-4o的大模型,其总训练成本只有557.6万美元,而GPT-4o的训练成本约为1亿美元,使用25000个GPU芯片,双方的成本至少是10倍的差距。
这一高效率低成本的模式,打破了业界对于高性能芯片与巨额投入的依赖,让市场重新审视了“算力即王道”的传统逻辑。
模型性能比肩甚至超越OpenAI o1
DeepSeek发布的DeepSeek-R1模型,在数学、代码、自然语言推理等任务上的性能比肩OpenAI o1正式版。
此外,DeepSeek-R1的蒸馏小模型也超越了OpenAI o1-mini,进一步证明了其技术的先进性和实用性。
应用商店排名超越ChatGPT
2025年1月27日,DeepSeek应用超越ChatGPT,登顶苹果美国区免费App下载排行榜。
英伟达股价暴跌
2025年1月28日,除夕那天,DeepSeek发布了新一代多模态生成模型——Janus-Pro-7B,这一模型在GenEval和DPG-Bench基准测试中超越了当前市场上的热门工具DALL-E 3和StableDiffusion。
从技术上了来说,该模型和之前的V3、R1比起来没有那么惊艳。但是,英伟达的股价在新模型发布后暴跌16.97%,市值蒸发约5890亿美元,创下单日市值蒸发的历史纪录。
开源模式促进技术共享
DeepSeek采用开源模式,这与那些传统上闭源的巨头形成鲜明对比。
这背后,是技术的自信,是眼界的开阔。
全球范围内的广泛关注和讨论
DeepSeek的成就引发了全球科技行业对国产AI的热烈讨论。虽然之前也有很多模型让国外瞩目,但是没有有哪个模型达到了这么大的影响力,甚至有人将其称为中国的“ChatGPT时刻”。
模型里程碑
2024-1-5:DeepSeek LLM(大语言模型)
“深度求索”从零开始在一个包含2万亿token的数据集上训练出的第一个大模型,包含670亿参数。
模型全部开源,包括 Base(7B/67B)和 Chat(7B/67B) 两个版本:
- DeepSeek LLM 67B Base 在推理、编码、数学和中文理解等方面超越了 Llama2 70B Base。
- DeepSeek LLM 67B Chat 在中文表现上超越了 GPT-3.5。
2024-1-25:DeepSeek-Coder(代码大模型)
DeepSeek Coder 是一系列代码语言模型,每个模型均从零开始在 2 万亿 token 的数据集上训练,其中包含 87% 的代码 和 13% 的中英文自然语言。
模型尺寸从 1B 到 33B 不等,在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。
2024-2-5:DeepSeek-Math(数学大模型)
DeepSeek-Math 基于 DeepSeek-Coder-v1.5 7B,训练规模达 5000 亿 token。
DeepSeek-Math 7B 在竞赛级 MATH 基准测试中取得了 51.7% 的优异成绩,且未依赖外部工具包和投票技术,接近 Gemini-Ultra 和 GPT-4 的性能水平。
2024-3-11:DeepSeek-VL(视觉大模型)
DeepSeek-VL 是一个开源的视觉-语言(VL)模型,采用混合视觉编码器,在固定 token 预算内高效处理高分辨率图像(1024 x 1024),同时保持较低的计算开销。
DeepSeek-VL 系列(包括 1.3B 和 7B 模型)在相同模型尺寸下,在广泛的视觉-语言基准测试中达到了最先进或可竞争的性能。
2024-5-7:DeepSeek-V2(大语言模型)
DeepSeek-V2 包含 2360 亿总参数,与 DeepSeek LLM 67B 相比,节省了 42.5% 的训练成本,将 KV 缓存减少了 93.3%,并将最大生成吞吐量提升至 5.76 倍。
DeepSeek-V2 掀起了中国大模型价格战,推理成本被降到每百万 token 仅 1 元钱,约为 Llama3 70B 的 1/7,GPT-4 Turbo 的 1/70。
2024-6-17:DeepSeek-Coder-V2(代码大模型)
DeepSeek-Coder-V2 基于 DeepSeek-V2,进一步预训练了额外的 6 万亿 token。
在标准基准测试中,DeepSeek-Coder-V2 在编码和数学基准测试中表现优异,超越了 GPT4-Turbo、Claude 3 Opus 和 Gemini 1.5 Pro 等闭源模型。
2024-11-20:R1-Lite(推理模型预览版)
DeepSeek R1-Lite 是 DeepSeek 发布的推理模型预览版,仅在 OpenAI 发布推理模型 o1 预览版后的两个月内推出。
2024-12-13:DeepSeek-VL2(视觉大模型)
DeepSeek-VL2 是一个先进的大型混合专家(MoE)视觉-语言模型系列,包括:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分别具有 10 亿、28 亿和 45 亿激活参数。
与现有的开源密集模型和基于 MoE 的模型相比,DeepSeek-VL2 在相似或更少的激活参数下实现了具有竞争力或最先进的性能。
2024-12-26:DeepSeek-V3(大语言模型)
DeepSeek-V3 是一个强大的混合专家(MoE)语言模型,总参数为 6710 亿,每个 token 激活 370 亿参数。沿用了多头潜在注意力(MLA)和 DeepSeek MoE 架构,首创无辅助损失的负载均衡策略,并设定了多 token 预测训练目标以提升性能。
- 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型。
- 并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
2025-1-20:DeepSeek R1(高性能推理模型的突破)
DeepSeek R1 是 DeepSeek 推出的高性能推理模型,在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
- 在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
- 在编程开发能力的 WebDev 分榜上,R1 位列第二,与闭源的 Claude 3.5 Sonnet 差距微乎其微。
- 通过 DeepSeek-R1 的输出,蒸馏了出的 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
2025-1-28:Janus-Pro(多模态大模型)
Janus-Pro 是 DeepSeek 发布的多模态大模型,采用了解耦视觉编码的方式,显著提升了模型在不同任务中的适配性与性能。
在文生图领域的基准测试中,Janus-Pro-7B 的表现尤为亮眼,其准确率在 Geneval 和 DPG-Bench 两项测试中分别高达 80% 和 84.2%,超越了包括 OpenAI DALL-E 3 在内的其他对比模型。
