成濑心美番号五天五连炸！归来DeepSeek“开源周”工夫全家桶：用软件“从头界说”算力！

栏目分类

热点资讯

色站导航

发布日期：2025-07-05 23:48 点击次数：196

成濑心美番号五天五连炸！归来DeepSeek“开源周”工夫全家桶：用软件“从头界说”算力！

本文作家：李笑寅成濑心美番号

起原：硬 AI

" OpenAI 不 Open，DeepSeek 真 Deep "。

本周，"开源周"活动方滋未艾地伸开，DeepSeek 每天不定时上新"黑科技"，让世界步调员直呼：这波确实在大气层！

从计较到通讯再到存储，DeepSeek "五连炸"确实掩饰了 AI 缔造的全链条，在彻底莫得升级现存硬件的情况下最猛进程地"榨干"算力，进良友毕锤真金不怕火效果的飞跃，号称"最强扶助"，十分高大，无比美妙。

咱们梳理了 DeepSeek 这些天来释出的工夫组件，惊喜地发现，它们似乎恰好构建成了一套精密协同的系统。

若是用"中央厨房"来比方这套系统，那么每当大模子这名厨师要运行"作念饭"时，每个设施能伸开精密配合，经由"拿菜 - 订单处理 - 传菜 - 烹调"的经过后"高效出大餐"。

Day1：FlashMLA ——配菜机器东谈主

FlashMLA 是 DeepSeek 挑升针对英伟达 H800 这一代高端加快卡作念的深度优化，旨在优化 GPU 解码，处理变长序列，提高计较效果。

绵薄来说，FlashMLA 的最大上风在于，濒临哀痛不一的文本序列能动态调配算力资源。

就像厨房里能说明订单动态分派食材的智能机器东谈主，濒临不同规格的订单（文本 / 语音的哀痛数据），FlashMLA 能自动更正切菜速率（GPU 资源分派），"短订单"秒速完成，长订单则启动高压锅花样，省俭处理时刻。

说明基准测试，FlashMLA 能在 H800 显卡上飙出580 万亿次 / 秒的算力，尽头于 1 秒写完《三体》全集，还把显存占用砍到了传统决议的1/5。

Day2：DeepEP ——传输调度台

DeepEP 是世界首个专为混杂大家模子（MoE）和大家并行（EP）定制的开源高性能通讯库，旨在解决大界限 AI 模子锤真金不怕火与推理中的通讯瓶颈问题。

在 AI 中央厨房中，DeepEP 如同新式的传输调度台，相较于传统对讲机（旧通讯左券）容易导致辅导芜乱的流毒，在濒临复杂任务时，DeepEP 能通过 FP8 压缩工夫，简化传达任务需求，还能及时更新菜单。

当需要跨厨房（处事器节点）传递食材（参数）时，RDMA 工夫更像是一条"传送带"，将食材直送灶台（GPU）。

性能数据也很过劲：基于 H800 的 GPU，DeepEP 不错通过 NVLink 工夫已毕单节点内 GPU 间极速通讯，带宽高达约 150GB/s，尽头于 1 秒传完 30 部高清电影。

Day3：DeepGEMM ——智能灶台

DeepGEMM 是一款专注于 FP8 高效通用矩阵乘法（GEMM）的库，主要满足普通矩阵计较以及混杂大家（MoE）分组场景下的计较需求。

也曾拿中央厨房例如，DeepGEMM 不错算作是一个全能灶台，一能作念到动态火候限定，煎牛排用烈火（密集计较用 FP8 精度），煲汤转文火（MoE 门控网络用 BF16 精度）；二能通过 JIT 工夫，让 1 平米灶台同期处理 10 谈菜。

偷拍走光

不同于 CUDA 库这个传统灶台，jjj43天天影视作念经跳墙要 3 小时，通过精度动态切换等一系列骚操作，DeepGEMM 只需 1 小时就能处分，还省一半燃气（显存）。

值得闪耀的是，DeepGEMM 罗致了轻量级即时编译（JIT）模块，撑捏运行时动态编译内核，无需提前完成编译和装置。

也即是说，DeepGEMM 仅凭 300 行 CUDA 代码，运算速率就颖异翻传统千万行工程库。有不雅点戏称：这 DeepSeek 确实比英伟达皆懂 GPU。

Day4：DualPipe & EPLB ——后厨活水线带领官

DualPipe 和 EPLB 是面向大界限 AI 模子锤真金不怕火的两项中枢工夫，分辨聚焦于漫步式锤真金不怕火效果优化和大家并行负载平衡，均为 V3/R1 而筹谋。

实践上，锤真金不怕火大模子最怕遭遇"活水线摸鱼"，计较单位等数据时的发怔时刻一般被称作"气泡"，而 DualPipe 和 EPLB 即是专为减少"气泡"而筹谋的。

在中央厨房中，DualPipe 是一条"双向传送带"，一边让洗碗工"反向传播"，一边让配菜员"前向计较"在两条平行传送带上责任，尽头于"一边作念饭一边洗碗"，解决了"等盘子洗好才略上菜"的无语。

EPLB 则充任"智能排班表"的变装，不错克隆大厨（冗余大家）到陶然灶台（GPU），确保法餐主厨不会累晕在情东谈主节套餐岑岭期（负载平衡）。

Day5：3FS 文献系统——中央冷库 + 闪电配送

临了压轴的 Fire-Flyer 文献系统（3FS），是专为高性能计较打造的高性能漫步式文献系统，旨在叮咛 AI 锤真金不怕火和推理责任负载中的挑战，解决"高浑沌写入"与"低延长读取"难兼顾的痛点。

对中央厨房而言，3FS 更多起到后台保藏的作用，主要的工夫上风在于两点。

一是光速存取：6.6TB/s 的浑沌量，尽头于每分钟搬空 300 个冰柜（传统硬盘）的食材（数据）。

二是保鲜黑科技：通过 SSD+RDMA 工夫的聚会，确保北京分店和上海分店看到的牛排永恒是归并块，也即是所谓的"数据强一致性"。

打响 AI "开源盛世"第一枪，连续推翻象牙塔

非论是传输调度台，也曾配菜机器东谈主，DeepSeek 这次开源的工夫组件，筹谋初志皆在于进一步缩短算力资本、优化锤真金不怕火效果。

有分析合计，这波开源最硬核的道理在于：通过软件栈的系统性优化（从文献系统到通讯左券），可在现存硬件基础上已毕倍数级效果飞跃。

这意味着，AI 性能进步不再单纯依赖芯片制程的冲突。而不堆硬件、优化软件、"猛榨"算力，也恰是 DeepSeek 能已毕超低资本"超车"一众国外顶尖大模子的窍门场所。

有网友示意，OpenAI 应该把它们的域名"献给" DeepSeek，因为后者才实在作念到了开源。

还有网友示意，开源 AI 不有数，有数的是 DeepSeek 这种"车库精神和 AGI 贪心的聚会"：

还有东谈主送上梗图，以表尊重：

针对这次的"开源周"活动，咱们也让 DeepSeek 也褒贬了一下，这是它的陈说：

正如 DeepSeek 此前的宣言：

"这个领域莫得无出其右的象牙塔，惟一隧谈的车库创业精神与社区共筑的革生力军。"

"毫无保留地共享咱们细微但真挚的阐扬。"

而一个更骁勇的猜思也正随之自大：跟着 DeepSeek 不停用工夫优化冲突硬件瓶颈，会不会从头界说算力之于 AI 的道理？

这场始于中国车库的工夫狂欢成濑心美番号，仍在连续改写世界 AI 规章。