Skip to content

GPT-4.5:期待了个“寂寞”?

约 860 字大约 3 分钟

GPT-4.5OpenAIAI价格

2025-03-02

前言

最近AI圈热闹得像个菜市场——Anthropic刚推出混合推理模型Claude 3.7 Sonnet,马斯克的Grok 3还在热搜上挂着,OpenAI突然甩出一张“王炸”:GPT-4.5。

今天就带领大家来扒一扒,OpenAI这波发布到底怎么样。

GPT-4.5

简介

2月28日凌晨,OpenAI低调上线GPT-4.5研究预览版。官方称这是“史上最大聊天模型”,计算效率比GPT-4提升10倍,还能更懂你的“弦外之音”。

可这次发布会,CEO奥特曼连面都没露。

亮点

我们先来了解下本次发布有哪些亮点:

  • 高情商话术大师:当你说“朋友放我鸽子,帮我骂他”,它不会耿直输出脏话,而是委婉安抚情绪,甚至补一句“下次让他请奶茶”。

  • 幻觉率大减:被问“第一种语言是什么”,它老实承认“人类还没解开这谜题”,而不是瞎编一个“山顶洞语”。

  • 交互更自然:测试者反馈,和它聊天“更像人类”,比如考试失败时,它会先安慰再给建议,而不是机械地列解决方案。

可仔细一看,这些“亮点”更像是给模型打补丁——情商高了,智商却没咋涨。MMLU语言理解测试得分仅比GPT-4高5%,科学类问题甚至跑不过自家的小弟o3-mini模型。

提升有限

OpenAI这次把宝押在“情感交互”上,但用户反响却是一般。

  • 技术瓶颈明显:用10倍算力训练出的模型,专业领域表现平平,反而在写诗、编冷笑话上更溜了——总感觉有点“不务正业”。

  • 单盲测试翻车:OpenAI联合创始人Andrej Karpathy发起五轮盲测投票,让网友对比GPT-4.5和GPT-4的匿名回复。结果有点尴尬:GPT-4.5仅1次胜出,惨输4轮(胜率20%)。

更尴尬的是,同类竞品早已玩转“高情商”。

  • DeepSeek用同样的测试案例,不仅写出委婉短信,还附赠幽默金句。
  • Claude 3.7甚至能启动“深度思考模式”,像人类一样权衡利弊。

价格离谱

如果说技术亮点是“挤牙膏”,那定价策略绝对是“跳楼机”。

输入75美元/百万token,输出150美元,比GPT-4贵30倍,比DeepSeek-V3正常价高280倍,碰上后者“深夜折扣”,直接能贵出1000倍!

感觉好像工作人员没睡醒一样。

下面是整理的OpenAI体系内价格对比和当前主流供应商价格对比。

OpenAI API价格

当前主流模型价格

总结

OpenAI这次GPT-4.5的升级技术指标突破非常一般,再加上不一般的价格,感觉真是期待了个“寂寞”。

而反观DeepSeek,开源周如火如荼。

一边是封闭系统对算力霸权的维持,另一边是开源社区用代码书写的技术平权。

开闭源的AI之争,大家拭目以待!