拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」
拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GNN的神经算法推理器(NAR)的强大算法推理能力相结合,可以实现更加泛化、稳健、准确的LLM推理。
DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GNN的神经算法推理器(NAR)的强大算法推理能力相结合,可以实现更加泛化、稳健、准确的LLM推理。
大语言模型(LLM)的迅速发展,引发了关于如何评估其公平性和可靠性的热议。
通过算法层面的创新,未来大语言模型做数学题的水平会不断地提高。
2024 年 5 月,DreamTech 官宣了其高质量 3D 生成大模型 Direct3D,并公开了相关学术论文 Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer。
AI 将大大提高数学研究的效率。
「原来以为语料已经匮乏了,大模型训练已经没有语料了,实际上不是的,数据还远远没有跑光」。
Meta AI的NLLB-200登上Nature,「不让任何一门语言掉队」,能翻译200种语言的大模型获得Nature社论的盛赞——复兴了濒临灭绝的语言,但是Nature研究人员也郑重提醒Meta,必须将使用这些语言的社区也纳入进来,才会真正减缓语言的消亡。
AI写了这么多代码,你还应该学习计算机科学吗?新的数据表明,学生们仍然成群结队地在大学里选修计算机:加州大学伯克利分校(UCB)计算机科学专业的一年级申请人数猛增48%!UCB教授分析,AI还没有学会创新,人类软件开发者可以利用AI提质增效。
大模型是世界模型吗?UA微软等机构最新研究发现,GPT-4在复杂环境的模拟中,准确率甚至不及60%。对此,LeCun激动地表示,世界模型永远都不可能是LLM。
GPT-4o掀起一股全模态(Omni-modal)热潮,去年的热词多模态仿佛已经不够看了。