AI资讯新闻榜单内容搜索-Transforme

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: Transforme
ICML 2024|Transformer究竟如何推理?基于样例还是基于规则

ICML 2024|Transformer究竟如何推理?基于样例还是基于规则

ICML 2024|Transformer究竟如何推理?基于样例还是基于规则

文章第一作者为来自北京大学物理学院、即将加入人工智能研究院读博的胡逸。胡逸的导师为北京大学人工智能研究院助理教授、北京通用人工智能研究院研究员张牧涵,主要研究方向为图机器学习和大模型的推理和微调。

来自主题: AI技术研报
8900 点击    2024-06-29 17:53
ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

上下文学习 (in-context learning, 简写为 ICL) 已经在很多 LLM 有关的应用中展现了强大的能力,但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于 Transformer 架构的 LLM 可以展现出 ICL 的能力。

来自主题: AI技术研报
4088 点击    2024-06-28 11:23
拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」

拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」

拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」

DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GNN的神经算法推理器(NAR)的强大算法推理能力相结合,可以实现更加泛化、稳健、准确的LLM推理。

来自主题: AI技术研报
9481 点击    2024-06-17 21:30
让卖茶女破防的超级算法

让卖茶女破防的超级算法

让卖茶女破防的超级算法

文章讲述了彩云科技团队在改进Transformer架构方面的努力,尤其是推出的全新通用模型架构DCFormer,以及团队面临的种种挑战和突破。

来自主题: AI资讯
5356 点击    2024-06-17 09:24
视觉语言模型导论:这篇论文能成为你进军VLM的第一步

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。

来自主题: AI技术研报
8579 点击    2024-06-11 10:08
首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

CRATE-α是一种新型Transformer架构变体,通过设计改进提升了模型的可扩展性、性能和可解释性,CRATE-α-Base在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型,其性能会随着模型和数据集规模扩大而继续提升。

来自主题: AI技术研报
8515 点击    2024-06-06 15:48