008导航-人人都在用的上网导航网址大全
免费加入

DeepSeek真成救世主了

文章编号:2947时间:2025-03-02人气:


去年年中,AI大模型发展风头正劲之时,谷歌一份环境报告引发媒体“担忧”——自2019年以来,其温室气体总排放量增长了48%。

不止谷歌,微软也在去年5月透露二氧化碳排放量增加了近30%,科技巨头公司碳排放增加的核心原因都被归于一点——人工智能模型、硬件和数据中心的能耗正在大幅攀升。可以说,若AI军备竞赛时代到来,人类很可能陷入一场从未预见到的能源危机。

但事情却在最近起了戏剧性变化。

近期,微软取消了威斯康星州Kenosha和乔治亚州亚特兰大两个数据中心项目的决策,涉及数百兆瓦的电力容量调整;此外,根据TD Cowen最新研究报告显示,微软已终止与多个私营数据中心运营商的租赁协议,并暂停部分国际资本支出计划。

这一系列举措不仅折射出人工智能基础设施建设领域正在发生的结构性转变,更是 被市场解读为AI投资热潮降温的重要信号。 TD Cowen分析师指出,微软此次战略调整的核心在于应对“供应过剩”的行业新常态。

伴随着近期AI概念股普遍回调,某种程度上凸显出资本对大模型估值的态度变化——DeepSeek这条“鲶鱼”引发的技术冲击,对大模型未来的技术演化提出了一条新的思考路径。

更少的芯片数量、更低的训练成本,DeepSeek在改变AI企业算力预期的同时,也将未来AI算力可能带来的能源消耗做了极大的削减。半开玩笑地讲, 人类如果没有因AI算力的增长而陷入能源危机,DeepSeek很有可能是“首功”。

DeepSeek是如何降低能源消耗的?

灵碳智能创始人李博杰认为,DeepSeek在技术上主要通过4个方面降低了训练成本:

一是流水线并行优化(DualPipe) :通过设计前向传播和反向传播的交错执行(如 1F1B 及其扩展策略),实现了计算任务与数据通信的完全重叠,从而最大化 GPU 利用率,缩短了训练过程中因等待产生的“气泡”时间。

二是冗余专家策略的负载均衡器(EPLB) :在 MoE(混合专家系统)架构下,不同专家的工作负载可能严重不平衡。EPLB 通过复制繁忙专家,为部分专家分担负载,避免了部分 GPU 长时间闲置,从而更高效地利用硬件资源。

三是FP8 混合精度训练: 相比传统使用 FP16/FP32 的混合精度训练,DeepSeekv3 “广泛地采用了 8 位浮点数进行训练”。这使得内存与计算资源的消耗大幅降低,不仅减少训练时所需的硬件资源,也间接降低了能耗和相关的电力成本。

四是多令牌预测(MTP): 通过一次生成多个 token,改善了信息利用率,既能提高训练和推理效率,也有助于缩短整体训练时间,降低计算资源消耗。

具体到GPU耗能层面,据李博杰测算,DeepSeek预训练共耗费大约 2.66 百万GPU小时,强化学习(RL)阶段约耗费 0.5 百万 GPU 小时,合计约为3.16 百万GPU小时。

假设使用的是H800 GPU,此类数据中心级GPU的功耗通常在 500W~700W 之间,取平均值 600W 计算,即每个 GPU 小时消耗 0.6 kWh 的电能。最终总能耗≈GPU 小时数 × 平均每小时耗电,结果约为1.9 GWh电能消耗。

作为对比,我们拿GPT-4 Moe为案例计算其在GPU方面的电能消耗。据黄仁勋在GTC2024上的演讲,GPT-4 Moe使用了8000个H100 GPU进行了90天的训练,总GPU卡时为17.28百万GPU小时。而H100 GPU的设计功耗(TDP)为500-750W,取平均值600W计算,可得最终总能耗约为10.4GWh, 与DeepSeek相比翻了5倍。

虎嗅ESG组曾在《AI革命,是能源的一场“灾难”》一文中指出,普通人家一年的用电量大概在1000kwh左右, 这意味着DeepSeek节约出的电能足够近一万个家庭使用一年。

李博杰指出,人工智能大模型之所以如此耗能,原因是因为目前主流的LLM模型采用了基于transformer架构的深度神经网络算法,这种架构的算法通过自注意力机制处理数据,并考虑序列的不同部分或句子的整个上下文,从而生成对模型结果的预测。

“市面上先进的LLM通常包含了万亿级别的参数,参数越多,模型复杂度越高,训练时的计算量就越大。”

而DeepSeek通过优化训练模型(引入多头潜在注意力机制)加上推出新的强化学习算法GRPO等举措,在显著降低计算成本的同时,还提高了模型的训练效率,最终实现其模型训练成本只有OpenAI的1/10,使用成本只有OpenAI的1/30。

根据国际能源署的数据,2022年美国2700个数据中心消耗了全国总电力的4%以上;预计到2026年,全球数据中心的电力消耗可能会翻一番。但目前从DeepSeek引发的“降本狂潮”来看,因数据中心带来的电力消耗或许不会如此巨大。

间接能源减耗空间巨大

与技术创新带来的训练能耗大大减少相比,因DeepSeek的技术创新间接带来的减碳空间同样巨大。

从市场竞争的角度看,面对DeepSeek技术创新带来的“降本”压力, 不少AI公司都在加速淘汰低效模型架构 ,最为典型的是meta

meta首席执行官扎克伯格将2025年称为“AI的决定性一年”,并期望meta AI能成为服务超过十亿人的领先助手。但面对DeepSeek带来的新挑战,meta已陷入恐慌模式。

《The Information》在年初曾报道,meta的AI团队领导层包括AI基础设施总监马修·奥尔德姆,最近都担心DeepSeek的出现意味着meta在AI竞赛中正在落后。他们尤其害怕meta在本季度发布的下一代旗舰AI Llama的表现将不如DeepSeek。据《The Information》引用的两位meta员工称,meta已成立了多个“作战室”或专业研究小组,以剖析DeepSeek并利用其见解改进Llama。

至于马斯克的Grok 3,在堆了20万张H100显卡后,其评分测试确实比OpenAI、DeepSeek的得分更高。但如此大量的算力带来的是更大的能源消耗,据财经大V淘沙博士测算,Grok3单次训练的碳排放量相当于4.6万辆汽车的年排放量, 单位能耗效率上DeepSeekR1比Grok3低67%。

就算马斯克再有钱,也不可能放着捷径不走而继续“铺张浪费”。微软转向支持DeepSeek、meta开始研究DeepSeek算法都足以说明,DeepSeek正在颠覆AI巨头们堆算力、堆芯片这一“大力出奇迹”的模式,走向精细化运营。

除了市场竞争角度外,从供应链上下游角度分析,DeepSeek也给能源行业“好好上了一课”。在DeepSeek出圈之后,除夕夜前一天能源供应商Constellation Energy股价下跌21%,电力企业Vistra下挫28%。

“DeepSeek重置了中美在人工智能领域的竞争环境,更重要的是,它从根本上颠覆了能源领域。”国际税务与投资中心能源、增长与安全项目助理主任何伟龙(Wesley Alexander Hill)在发表于《福布斯》杂志的署名文章中表示,全球许多国家制定能源政策所基于的基本假设,即人工智能必会带动需求不断增长,已经不复存在。

最后,在对传统能源企业的赋能方面,DeepSeek也能有令人惊异的表现。例如对于化工企业而言,通过实时分析生产数据(如反应参数、设备状态),可动态调整工艺条件。有垂类自媒体指出,在甲醇精馏装置中,通过模型优化工艺参数后能实现蒸汽消耗降低15%,产品收率提升8,提升设备综合效率(OEE)达12%。

而中国石化也在近期对外反馈,中石化DeepSeek-R1模型已经在进口GPU和国产GPU平台上完成验证测试,推理计算效率提升近一倍。未来,DeepSeek可以应用在中石化的地震资料处理、油藏开发优化、化工产品研发等核心领域。

总结而言,DeepSeek已通过技术颠覆、成本重构以及开源生态,在训练环节和企业级应用中产生了明确的节能案例, 未来节能减碳的空间仍然巨大。

更广泛的社会效益

分析到这里,DeepSeek已经在ESG中的“E(环境)”上有着不俗表现,但在“S(社会)”和“G(公司治理)”上,DeepSeek同样有着极佳的案例应用。

在“G(公司治理)”层面,《中国经营报》在近期发表文章指出,随着微信、百度等科技巨头接入DeepSeek,同时各地政务系统纷纷上线基于全栈国产化技术的DeepSeek-R1智能模型,导致算力需求急剧增长。随着DeepSeek在多领域大展拳脚,未来社会对算力的需求会持续增长。

而在“S(社会)”层面,据澎湃新闻报道,广西玉林市兴业县已有乡镇将DeepSeek用于防返贫监测,“通过DeepSeek对全镇脱贫户数据进行动态分析,精准识别潜在返贫风险家庭,并自动生成帮扶建议,分析效率较传统方式提升50%。”

如此看下来,DeepSeek在ESG各维度的潜在助推价值无疑还具备相当大的可开发空间,无疑是“大隐隐于市”的存在。

而当下的人工智能或许仅仅是DeepSeek的一面, 其效率至上所体现出的工具理性,以及将环境友好、社会公平、公司治理纳入技术演进的内在逻辑, 将为人类推动社会的可持续发展带去更多惊喜。

DeepSeek真成救世主了

文章标题:DeepSeek真成救世主了

文章链接:

阅读原文:DeepSeek真成救世主了_虎嗅网

相关标签: DeepSeek真成救世主了

上一篇:并非唯一正确的解决方案给外卖骑手交五险一

下一篇:特朗普大举加征汽车关税损人不利己

内容声明:

1、本站收录的内容来源于大数据收集,版权归原网站所有!
2、本站收录的内容若侵害到您的利益,请联系我们进行删除处理!
3、本站不接受违法信息,如您发现违法内容,请联系我们进行举报处理!
4、本文地址:https://www.dx008.com/article/2947.html,复制请保留版权链接!


温馨小提示:在您的网站做上本站友情链接,访问一次即可自动收录并自动排在本站第一位!
随机文章
岳阳市SEO优化 (岳阳市森茂商贸有限公司)

岳阳市SEO优化 (岳阳市森茂商贸有限公司)

在探讨岳阳市SEO优化,岳阳市森茂商贸有限公司,这一主题之前,我们需要明确几个关键点,SEO,搜索引擎优化,是一种提升网站在搜索引擎自然搜索结果中排名的技术和策略;岳阳市森茂商贸有限公司是一家位于湖南省岳阳市的企业,其业务可能涉及多个领域,如建材、家具、家居用品等,从SEO优化的角度来看,岳阳市森茂商贸有限公司需要考虑以下几个方面,一...。

互联网资讯 2025-02-22 14:48:24

加速推理降本不减性能 DeepSeek推出NSA技术 (推理加速卡是什么)

加速推理降本不减性能 DeepSeek推出NSA技术 (推理加速卡是什么)

根据IT之家的报道,DeepSeek公司于2月18日宣布推出了NSA,NativeSparseAttention,,这是一种专为硬件优化设计的稀疏注意力机制,旨在提升超长上下文环境下的训练速度与推理效率,NSA的主要特点在于其硬件对齐性以及原生可训练性,这使得它能够在不损失性能的前提下,显著提高处理速度并降低预训练成本,NSA通过减少...。

互联网资讯 2025-02-21 11:21:44

如何选择适合你的香港服务器 (如何选择适合自己的发型)

如何选择适合你的香港服务器 (如何选择适合自己的发型)

在选择香港服务器时,性能、稳定性、速度与价格是重要考量因素,本文整理了香港服务器排行榜TOP10,帮你找到最合适的选择,1.阿里云香港服务器,作为国内云计算领导者,阿里云以高稳定性、快速速度及强大安全性闻名,提供多样配置,满足不同用户需求,2.腾讯云香港服务器,备受好评,性能稳定、速度快,丰富的云服务与优惠活动,便捷部署与管理网站和应...。

互联网资讯 2025-02-06 08:21:22

探讨优势与特点 为何选择在香港搭建CDN节点服务器 (探讨优势与特长的区别)

探讨优势与特点 为何选择在香港搭建CDN节点服务器 (探讨优势与特长的区别)

CDN是一些分布在全国各地的服务器加点,主要起到网络加速的作用,现在CDN已经不单单自起到加速作用了,由于网络攻击的日益横行,很多网站都会收到不同程度的网络攻击,通过域名是可以反向查询服务器IP的,因为CDN节点也是一个个独立的服务器组成的,当用户访问某个网站时,会自动跳转到最近的CDN节点上,而这时候通过域名反向查询的IP地址是CD...。

互联网资讯 2025-02-06 08:17:42

两部门严打国补先涨价后打折等行为 套取国家补贴将被取消资格并追缴资金 (两办严打文件)

两部门严打国补先涨价后打折等行为 套取国家补贴将被取消资格并追缴资金 (两办严打文件)

```html感谢IT之家网友風見暉一的线索投递!IT之家1月8日消息,国家发展改革委、财政部今日发布关于2025年加力扩围实施大规模设备更新和消费品以旧换新政策的通知,通知明确,规范市场秩序,是新一轮消费品以旧换新的重要内容之一,对发现存在不履行价格承诺、先涨价后打折等价格违法行为,以及套取补贴资金的经营主体,要第一时间取消其参与活...。

互联网资讯 2025-01-09 13:10:37

3000 实拍图曝光 美元的迷你超级计算机 Project 英伟达 Digits (3000 拍照)

3000 实拍图曝光 美元的迷你超级计算机 Project 英伟达 Digits (3000 拍照)

IT之家1月9日消息,英伟达在最近的一次展会上发布了一款名为ProjectDigits的个人AI超级计算机,然而由于现场灯光过暗导致观众难以清晰看到,TheVerge在CES2025展会期间透过玻璃拍摄到了这款产品,外观看起来要比想象中的小很多,根据英伟达官方的介绍,ProjectDigits搭载了最新的GB10GraceBlackw...。

互联网资讯 2025-01-09 13:08:08