相关网页

Mamba详细介绍和RNN、Transformer的架构可视化对比

论文速读17:Mamba_哔哩哔哩_bilibili

视觉Mamba来了:速度提升2.8倍,内存能省87%

视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

8/8/6/3的Mamba论文,最终还是被ICLR 2024拒了,网友:悬着的心终于死了

https://github.com/XiudingCai/Awesome-Mamba-Collection

方法 训练 推理
Transformer 支持并行化,极大加快训练速度 每次生成token需要重新计算整个序列注意力,占用内存大
RNN 顺序完成,不能并行进行 推理速度非常快

原理

The State Space Model (SSM)状态空间模型

Untitled

Mamba.pptx

Untitled

recurrent→convolutional

Untitled

实现了并行计算

缺点:得确保每一步的A与B不变

改进Motivation

Untitled