DeepSeek发布最新NSA架构论文 梁文锋作为共创在列

观点网讯:2月18日消息,DeepSeek发布了最新技术论文《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》。

据报道,这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人梁文锋也作为共创在列。

该论文提出了一种名为NSA(Natively Sparse Attention,原生稀疏注意力)的新型注意力机制。NSA是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

据分析,在64K长文本场景下,NSA实现解码速度提升11.6倍、前向传播9倍加速、反向传播6倍加速。

免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。

打开APP阅读更多精彩内容