动画讲解 Mamba 状态空间模型_哔哩哔哩_bilibili
旧文本向量乘权重加残差 感觉好像transformer
过个llm head输出y
卷积真的很快
参考一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba(被誉为Mamba最佳解读)_mamba模型-CSDN博客
偷了
Transformer的二次复杂度哪来的
为什么rnn会忘记一部分信息,mamba不会
mamba的A,B,C矩阵是独立于文本存在的吗
参考【官方Mamba库】原理简述和代码解析_mamba模型代码-CSDN博客
mamba没有rnn的tanh激活函数怎么实现非线性化的