Mamba详细介绍和RNN、Transformer的架构可视化对比
视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba
8/8/6/3的Mamba论文,最终还是被ICLR 2024拒了,网友:悬着的心终于死了
https://github.com/XiudingCai/Awesome-Mamba-Collection
方法 | 训练 | 推理 |
---|---|---|
Transformer | 支持并行化,极大加快训练速度 | 每次生成token需要重新计算整个序列注意力,占用内存大 |
RNN | 顺序完成,不能并行进行 | 推理速度非常快 |
The State Space Model (SSM)状态空间模型
recurrent→convolutional
实现了并行计算
缺点:得确保每一步的A与B不变
改进Motivation