2月16日,DeepSeek研究團隊在arXiv上發(fā)表論文,提出了一種全新的注意力機制架構(gòu)NSA(Native SparseAttention,原生稀疏注意力),專為超快長上下文訓(xùn)練和推斷而設(shè)計,具有硬件對齊的特點,梁文鋒參與共創(chuàng)。
(科技日報 趙衛(wèi)華 李忠明)
2月16日,DeepSeek研究團隊在arXiv上發(fā)表論文,提出了一種全新的注意力機制架構(gòu)NSA(Native SparseAttention,原生稀疏注意力),專為超快長上下文訓(xùn)練和推斷而設(shè)計,具有硬件對齊的特點,梁文鋒參與共創(chuàng)。
(科技日報 趙衛(wèi)華 李忠明)