卷积网络又行了?DeepMind推翻Transformer最强传说,LeCun怒赞
卷积网络又行了?DeepMind推翻Transformer最强传说,LeCun怒赞DeepMind最新研究发现,只要模型设计上没有缺陷,决定模型性能的核心可能是训练计算量和数据。在相同计算量下,卷积神经网络模型和视觉Transformers模型的性能居然能旗鼓相当!
DeepMind最新研究发现,只要模型设计上没有缺陷,决定模型性能的核心可能是训练计算量和数据。在相同计算量下,卷积神经网络模型和视觉Transformers模型的性能居然能旗鼓相当!
本文介绍了一份AI意识检查清单,用于评估AI系统是否具备意识。研究人员根据意识理论提取了6种意识指标,并通过评估Transformer和Perceiver等AI系统,展示了使用这些指标的方法。
最近多模态大模型是真热闹啊。 这不,Transformer一作携团队也带来了新作,一个规模为80亿参数的多模态大模型Fuyu-8B
这两天,FlashAttention团队推出了新作: 一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。 该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证
由Air Street Capital创始人Nathan Benaich等人制作的「人工智能全景报告」出炉,像素级回顾了过去这一年AI行业不能错过的突破性技术和行业新发展!
Cohere近期获得了2.7亿美元的C轮融资,累计融资额超过4.3亿美元,估值超过21亿美元。它的投资者名单中包括Salesforce、NVIDIA、Oracle这样的企业巨头,Tiger Global和Index Ventures等顶级投资机构,以及Geoffrey Hinton(深度学习三巨头,图灵奖获得者)、李飞飞等知名AI大牛。它的合作者还包括Amazon、麦肯锡等。
在快速发展的人工智能领域,自然语言处理已成为研究人员和开发人员关注的焦点。近年来,在Transformer 架构和BERT 双向升级的基础上,出现了几种突破性的语言模型,突破了机器理解和生成的界限。