
Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存既能像 Transformer 一样并行训练,推理时内存需求又不随 token 数线性递增,长上下文又有新思路了?
既能像 Transformer 一样并行训练,推理时内存需求又不随 token 数线性递增,长上下文又有新思路了?
预训练语言模型在分析核苷酸序列方面显示出了良好的前景,但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。
“Scaling Law不是万金油”——关于大模型表现,华为又提出了新理论。
经历了OpenAI春季发布会上卡点大师Altman GPT-4o一番狂轰乱炸后,大家都在等着看: 这次,谷歌能否接得住? 要知道,即便天天受到来自微软的惊吓,又被OpenAI追着打,谷歌依然有两个无法忽视的天然优势:
基于 Diffusion Transformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和 3D「一网打尽」。
20 世纪 90 年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来,LSTM 经受住了时间的考验,并为众多深度学习的成功案例做出了贡献。然而,以可并行自注意力为核心 Transformer 横空出世之后,LSTM 自身所存在的局限性使其风光不再。
使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定,可在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极度稀疏性,scATAC-seq 的细胞注释仍然具有挑战性。现有的细胞注释方法大多集中在细胞峰矩阵上,而没有充分利用底层的基因组序列。
万万没想到,与任务无直接关联的多模态数据也能提升Transformer模型性能。
探索视频理解的新境界,Mamba 模型引领计算机视觉研究新潮流!传统架构的局限已被打破,状态空间模型 Mamba 以其在长序列处理上的独特优势,为视频理解领域带来了革命性的变革。
抛弃传统方法,只采用Transformer来解码真实场景!