真比更优吗？原作者两个都要！混合架构才是最优解

真比更优吗？原作者：两个都要！混合架构才是最优解

新智元报道编辑：乔杨【新智元导读】Mamba模型由于匹敌Transformer的巨大潜力，在推出半年多的时间内引起了巨大关注。但在大规模预训练的场景下，这两个架构还未有「一较高低」的机会。最近，英伟达、CMU、普林斯顿等机构联合发表的实证研究论文填补了这个空白。去年12月，CMU、普林斯顿的两位华人学者，向Transformer多年的霸主地位发起挑战。完全抛弃注意力机制和MLP模块、上下文长度线性缩放、推理速度比Transformer快5倍…这些特点让所有人都为之一振，JimFan大佬也发推赞叹「为推翻Transf...

科技生活 2024-07-13 622 0 真比更优吗？原作者两个都要！混合架构才是最优解

1