超越HBM:HBF的崛起与AI存储的第二波浪潮
2026年2月19日超越HBM:HBF的崛起与AI存储的第二波浪潮
摘要
当市场仍然聚焦于高带宽存储器(HBM)驱动AI模型训练之际,一个巨大的瓶颈正在逼近。随着AI从训练转向推理——特别是视频生成、长上下文智能体和RAG(检索增强生成)——仅靠HBM已经过于昂贵且容量受限。业界的答案是:高带宽闪存(HBF)。
这已不再是推测。2026年2月,SK海力士在IEEE Computer Architecture Letters发表了H3架构论文,展示了HBM+HBF混合系统相比纯HBM配置实现了2.69倍的单位功耗吞吐量提升。SanDisk与SK海力士于2025年8月签署谅解备忘录,共同推动HBF标准化,预计2026年下半年推出样品,2027年初部署首批采用HBF的AI推理系统。
本报告深入分析HBF的技术必要性、新兴混合架构、竞争格局及半导体供应链的投资影响。
1. 核心问题:推理AI时代的“存储墙”
KAIST教授金正浩(被誉为“HBM之父”)近期预测,在成熟的AI时代,每个人将需要100TB的存储容量。当前的存储层次结构根本无法经济地满足这一需求。
HBM的局限
顶级HBM堆叠(如NVIDIA H200)最大约141GB。这对以下应用场景远远不够:
- 世界模型(Sora、Runway)需要巨大的时间一致性,单次推理可消耗数百GB上下文
- 长上下文大语言模型(100万+token窗口)仅KV缓存就可能消耗50-100GB
- RAG系统需要快速访问TB级向量嵌入
- 多模态智能体同时处理视频、音频和文本
成本问题同样严峻:HBM每GB约20-30美元,使得1TB推理节点仅存储成本就高达2-3万美元,在经济上不可行。
HBF解决了什么
HBF不是HBM的替代品,而是存储层次中的互补层级:
| 指标 | HBM3E | HBF(目标) | 比率 |
|---|---|---|---|
| 每堆叠容量 | ~24GB | ~192-384GB | 8-16倍 |
| 带宽 | 1.2 TB/s | ~1.6 TB/s | 相当 |
| 每GB成本 | $20-30 | $3-5 | 便宜5-8倍 |
| 延迟 | ~10ns | ~1-10μs | 较高,但足以满足推理需求 |
| 每GB功耗 | 高 | 降低约60% | 显著节省 |
如果HBM是GPU旁边的“专属书架”,那么HBF就是隔壁的“高速图书馆”——容量足以容纳一切,速度足以防止GPU空闲。
范式转变
| 时代 | 时期 | 焦点 | 核心指标 |
|---|---|---|---|
| 训练时代 | 2024-2026 | HBM | 绝对速度 |
| 推理时代 | 2027-2029 | HBM + HBF | 总体拥有成本(TCO)与容量 |
市场正在为模型创建(HBM需求)定价,但尚未充分为模型大规模运行(HBF需求)定价。
2. H3架构:HBM + HBF混合系统(已验证)
2026年2月,SK海力士在IEEE Computer Architecture Letters发表了里程碑式论文:《H3: 使用高带宽存储器和高带宽闪存实现高性价比大语言模型推理的混合架构》(DOI: 10.1109/LCA.2026.3660969)。
架构设计
H3在单一GPU系统中集成HBM和HBF,利用各自优势:
- HBM处理模型权重、激活值和频繁访问的KV缓存条目(延迟敏感、写入密集)
- HBF存储只读数据,如大型嵌入表、扩展KV缓存和预计算注意力矩阵(容量敏感、读取密集)
核心洞察:在大语言模型推理中,绝大多数数据访问是读操作(token生成从KV缓存读取的频率远高于写入)。HBF的读取带宽与HBM相当,使其成为此类工作负载的理想选择。
仿真结果
使用8个HBM3E堆叠和8个HBF堆叠搭配NVIDIA Blackwell B200 GPU:
- 相比纯HBM方案,单位功耗吞吐量提升2.69倍
- 批处理规模扩大18.8倍——每个GPU可处理更多并发查询
- 近线性容量扩展,成本不成比例增加
这些结果验证了核心论点:推理时代的AI更需要容量而非纳秒级延迟。
三大技术支柱
垂直堆叠:HBF目标是300+层NAND堆叠,通过TSV(硅通孔)连接逻辑层——远超标准企业级SSD的128-176层。
CXL接口:从NVMe(微秒级延迟)转向Compute Express Link(CXL),允许GPU通过存储总线直接访问HBF。CXL 3.0(预计2026年底批准)支持跨多设备的存储池化和共享。
智能控制器:存储内计算用于数据预处理——过滤、向量搜索、解压——在数据到达GPU之前完成。这种“近数据处理”可将数据移动量减少最多10倍。
3. 产业动员:从概念到商业化
自2025年中以来,HBF生态系统已迅速组织起来。
SanDisk + SK海力士谅解备忘录(2025年8月)
两家公司签署谅解备忘录,共同定义HBF技术规格并推动开放标准化。目标时间线:
- 2026年下半年:首批HBF存储样品
- 2027年初:首批采用HBF的AI推理系统
SanDisk HBF技术顾问委员会(2025年7月)
SanDisk成立HBF技术顾问委员会,成员包括重量级人物:
- David Patterson — 加州大学伯克利分校荣休教授,2017年图灵奖得主,RISC和RAID的联合创始人。担任委员会主席。
- Raja Koduri — 前英特尔GPU主管,现Oxmiq Labs CEO。在GPU-存储架构方面有深厚专长。
- Alper Ilkbahar — SanDisk执行副总裁兼CTO
Patterson的参与表明HBF正被定位为基础计算范式,而非仅仅是存储产品。
三星入局(2025年10月)
三星开始HBF的早期概念设计工作,利用其全球最大NAND制造商的地位。虽然产品规格仍未披露,但三星的加入验证了市场规模,竞争压力将加速技术发展。
铠侠XL-FLASH与CXL
铠侠在FMS 2025展示了CXL接口闪存扩展器:
- 32芯片BiCS FLASH第8代QLC堆叠,紧凑BGA封装
- 平均读取延迟低于10微秒
- 将NAND定位为直接CXL存储层级
中国视角:长江存储(YMTC)
中国的长江存储正准备通过与长鑫存储(CXMT)合作进入DRAM市场,目标是通过先进封装实现HBM制造。其Xtacking架构支持与AI加速器集成。武汉第三座晶圆厂(预计2027年投产)将把约一半产能用于DRAM。虽然出口管制可能限制其在中国以外的HBF影响,但它们代表了重要的国内需求催化剂。
4. 竞争格局:谁将赢得HBF之战?
第一梯队:创新者
SK海力士 (000660.KS) — 架构师
作为当前HBM领导者,SK海力士最有条件将HBM封装技术(TSV、混合键合)应用于NAND。其H3论文表明在系统级理解方面领先竞争对手12-18个月。与SanDisk的谅解备忘录确保了生态系统协同。
SanDisk (SNDK) — 纯正标的
从西部数据分拆后,SanDisk是HBF最直接的股票投资标的。核心优势:
- 无与伦比的NAND控制器和固件专长
- HBF商标(HBF™是其注册商标)
- Patterson和Koduri领衔的技术顾问委员会
- 从“大宗存储”到“AI基础设施”的估值重塑
- 通过与SK海力士的谅解备忘录积极推动标准化
第二梯队:规模化者
三星电子 (005930.KS) — 全产业链巨头
唯一拥有自研晶圆代工、逻辑芯片、HBM和NAND能力的企业。虽非首发,但三星的垂直整合能力使其在标准确定后可以最低成本大规模生产HBF。
美光 (MU) — 专精者
利用3D XPoint的历史研究积累和深入的CXL投资。美光在LPDDR级功耗效率方面的专长对推理优化的HBF模块至关重要。
铠侠 — 黑马
XL-FLASH配合CXL展示了早期产品就绪性。铠侠2026年全年NAND产能已售罄,表明其先进闪存产品需求强劲。
5. 供应链:工具与基础设施
HBF制造极其复杂,以下供应链环节至关重要。
A. 连接性 — 高速公路
Astera Labs (ALAB) — 关键纽带
HBF依赖CXL与GPU通信。Astera Labs主导重定时器市场——维持高速连接信号完整性的芯片。没有Astera,HBF中的“高带宽”在服务器距离上物理上不可能实现。它们是每个HBF数据包的收费公路。
随着CXL 3.0支持存储池化(在机架内多个GPU间共享HBF),Astera的可寻址市场从单插槽扩展到整个机架。
B. 控制器 — 大脑
慧荣科技 (SIMO) 与 Marvell (MRVL)
HBF需要远超标准SSD控制器的复杂纠错(ECC)、磨损均衡和逻辑管理。
- SIMO:如果HBF采用扩展到中端企业市场,将是主要受益者。其控制器IP已应用于70%以上的消费级SSD。
- Marvell:超大规模用户(Google/AWS)构建定制HBF机架架构时首选的定制ASIC控制器供应商。
C. 检测与封装 — 安全网
Camtek (CAMT) — 零容忍
堆叠300+层NAND配合TSV需要在每一层进行严格检测。如果一层失败,整个堆叠报废。Camtek的2D/3D检测设备对良率管理不可或缺。HBF越难制造,Camtek就越不可替代。
BE Semiconductor (BESI) — 键合专家
混合键合设备的领导者——这是将超高密度NAND层与逻辑芯片以亚微米间距连接所需的技术。
D. 系统 — 集成商
Pure Storage (PSTG) — 企业桥梁
使用“DirectFlash”技术消除传统SSD外形因素,Pure Storage有条件将HBF组件集成到面向企业客户的交钥匙“AI数据湖”中。
6. 投资框架
三句话论点
- SK海力士的H3论文验证了HBM+HBF混合方案在LLM推理中实现2.69倍单位功耗吞吐量提升。
- SanDisk和SK海力士正在标准化HBF,预计2026年下半年推出样品,投资窗口为12-18个月。
- 供应链赢家在商业化之前即可识别。
策略矩阵
| 策略 | 标的 | 逻辑 |
|---|---|---|
| 激进型 | SK海力士 (000660.KS)、SanDisk (SNDK) | 直接的HBF创新者,拥有先发优势 |
| 基础设施型 | Astera Labs (ALAB) | 不可或缺的CXL连接——HBF的收费公路 |
| 安全型 | Camtek (CAMT) | 复杂度税——HBF越难造,它们赚得越多 |
| 规模型 | 三星 (005930.KS)、美光 (MU) | 标准确定后的垂直整合和成本优势 |
| 集成型 | Pure Storage (PSTG) | 基于HBF的AI数据湖的企业采用层 |
关键催化剂
- CXL 3.0规范批准(预计2026年底)——确定HBF的接口标准
- SK海力士/SanDisk HBF样品(2026年下半年)——首次物理验证
- 首批采用HBF的AI推理系统(2027年初)——商业可行性验证
- 超大规模用户采购信号——关注MSFT/GOOG/AMZN/META资本支出电话会中的CXL存储提及
- 三星HBF产品发布——验证市场规模和竞争强度
风险因素
- 硬件路线图可能延迟——2026-2027时间线较为激进
- 如果出现竞争标准,CXL采用可能分化
- HBM成本下降(HBM4以更低价格)可能缩小TCO差距
- NAND供过于求周期可能压缩闪存厂商利润率
- 中国出口管制可能造成标准分化
免责声明:本分析涉及2026-2027年的技术预测,硬件路线图可能发生变化。CrazyRich Agents提供的AI生成研究仅供信息参考——不构成投资建议。