云开体育这次也曾发布：复旧 BF16；分页 KV 缓存-开云kaiyun登录入口登录APP下载(中国)官方网站 IOS/Android通用版下载安装

发布日期：2026-04-17 04:00 点击次数：153

DeepSeek 开源周第一天，降本大法公开——

FlashMLA，径直冲破 H800 狡计上限。

网友：这怎么可能？？

它是为 Hopper GPU 确立的高效 MLA 解码内核，成心针对可变长度序列进行了优化，当今也曾参加分娩。

MLA，恰是 DeepSeek 提议的立异防御力架构。从 V2 开动，MLA 使得 DeepSeek 在系列模子中完了本钱大幅裁减，然则狡计、推感性能仍能与顶尖模子捏平。

按照官方先容来说，FlashMLA 使用之后，H800 不错达到 3000GB/s 内存，完了 580TFLOPS 狡计性能。

网友们纷繁点赞：向工程团队致以上流的敬意，从 Hopper 的张量核中挤出了每一个 FLOP。这便是咱们将 LLM 就业推向新前沿的形势！

也曾有网友用上了。

开源第一天：FlashMLA

当今 GitHub 页面也曾更新。短短一小时，Star 星数也曾进步 1.2k。

这次也曾发布：

复旧 BF16；

分页 KV 缓存，块大小为 64

快速启动：

环境条件：

Hopper GPU

CUDA 12.3 及以上版块

PyTorch 2.0 及以上版块

在项贪图临了，它还示意，这是受到了FlashAttention 2&3和英伟达 CUTLASS 项贪图启发。

FlashAttention 是能完了快速且内存高效的精准防御力，主流大模子齐有在用。最新的第三代，不错让 H100 哄骗率飙升至 75%。磨砺速率提高 1.5-2 倍，FP16 下狡计隐隐量高达 740TFLOPs/s，达表面最大隐隐量75%，更充分哄骗狡计资源，此前只可作念到 35%。

中枢作家是 Tri Dao，普林斯顿大牛，Together AI 的首席科学家。

而英伟达 CUTLASS 是 CUDA C++ 模板轮廓的集中，用于在 CUDA 内完了高性能矩阵 - 矩阵乘法 ( GEMM ) 和统统级别和鸿沟的关系狡计。

MLA，DeepSeek 基本架构

临了再来说说，MLA，多头潜在防御力机制，DeepSeek 系列模子的基本架构，旨在优化 Transformer 模子的推理恶果与内存使用，同期保捏模子性能。

它通过低秩长入压缩本领，将多头防御力中的键（Key）和值（Value）矩阵投影到低维潜在空间，从而显贵减少键值缓存（KV Cache）的存储需求。这种看成在长序列惩处中尤为热切，因为传统看成需要存储无缺的 KV 矩阵，而 MLA 通过压缩仅保留要津信息。

V2 版块中，这一立异性架构把显存占用降到了已往最常用的 MHA 架构的 5%-13%，完了了本钱大幅裁减。它的推理本钱仅为 Llama 370B 的 1/7、GPT-4 Turbo 的 1/70。

而在 V3，这一降本提速就更为明显，径直让 DeepSeek 劝诱大众眼神。

也就在今天，DeepSeek-R1 在 HuggingFace 上获取了进步 10000 个赞，成为该平台近 150 万个模子之中最受接待的大模子。

HuggingFace CEO 发文公布了这一捷报。

The whale is making waves！鲸鱼正在掀翻浪潮！

好了期待一下，接下来的四天会发些什么呢？

GitHub 勾通：

https://github.com/deepseek-ai/FlashMLA

参考勾通：

https://x.com/deepseek_ai/status/1893836827574030466云开体育