发布时间:2025-04-22
打破"越强越贵"的成本诅咒,
超越"性能一成本一速度"的不可能三角,
走出"参数膨胀"陷阱,
实现技术架构、数据策略、工程实践三方面的关键突破,
中国要逐步成为贡献者,而不是一直"搭便车"。
DeepSeek的贡献绝非"低成本"这一个标签所能概括,
它不仅重新定义了大模型的生产函数,还将重新定义计算。
DeepSeek
中国AI的"斯普特尼克时刻"?
DeepSeek 每生成100万个token仅收取1.4美分,大约相当于70万个单词。相比之下,Meta 对其最大模型的相同输出收取 2.8 美元,DeepSeek收费相当于美国大模型的1/200!而成本仅仅是OpenAI的1/50左右。
“斯普特尼克时刻”是指某一国家或地区在某个领域的突然突破,带来巨大的技术、经济或政治影响,通常促使全球或其他国家重新评估自己的发展方向和竞争力。
揭秘DeepSeek
一个更极致的中国技术理想主义故事
DeepSeek 对模型架构进行了全方位创新。它提出的一种崭新的 MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的 MHA架构的5%~13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。
在基本由硅谷牵动故事进展的AI浪潮里,这是罕有的情形。多位行业人士告诉我们,这种强烈的反响源自架构层面的创新,是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。
DeepSeek颠覆了什么?
大模型"国产之光"破局的启示
不论开源与闭源未来的优势如何,这股冲击波都将迫使全球科技界重新思考:当"规模定律"与"生态壁垒"不再绝对,什么才是下一赛季 AI 竞争的核心?或许我们能从中获得新的启示。
在DeepSeek身上,我们看到了皮克斯动画工作室的影子。
科学家怎么用DeepSeek
科研人员正在测试这个开源模型执行科研任务的能力﹣﹣从数学一直到认知科学。
基于它的绝佳表现和低成本,我们相信 DeepSeek-R1能鼓励更多科学家在日常科研工作中使用大语言模型(llm),同时不用担心成本问题。
科技编辑四轮实测
观察DeepSeek实力如何
针对DeepSeek-V3的测试,编辑准备了包括通用问答、内容总结、专业数学题、金融知识问答等四个方面。部分测试还将与豆包、Kimi 等大语言模型进行对比,以便于更直观地观察DeepSeek-V3 的能力。
DeepSeek官网的价格表显示,缓存命中输入价格仅为0.1元/百万tokens,缓冲未命中输入价格为1元/百万tokens,输出价格则为2元/百万tokens,在诸多AI大模型中属于最低一档。
DeepSeek 爆火
但被AI抛弃的人,无人关心
如何看待 AI 带来的人员替代?几乎所有被问到这个问题的人都会说出同样一个回答:纵观历史,技术变革必然会导致一部分岗位消失,但它最终肯定会创造更多的新的就业机会。
AI面临的并不只是人员替代的问题,它更多的其实关乎着一个文明社会在时代进步过程中的取舍问题,关乎着我们应该如何照顾社会的"弱者",并为整个社会带来体面与尊严的问题。
本文选自《科学大观园》2025年3月(上),更多精彩内容---与您相约!典藏位置:二楼中文报刊第二阅览室
期刊精准推介:
《科学大观园》以传播科学文化、探索人与自然为宗旨。及时全面报道科技领域重大事件,深度解读最新科技成果,呈现科学领域新思想、新观点,并对大众普遍关注的生活热点进行科普。
编辑: 徐进
一审: 徐进