AI资讯新闻榜单内容搜索-清华

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 清华
谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!

谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!

谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!

RNN太老,Transformer太慢?谷歌掀翻Transformer王座,用「注意力偏向+保留门」取代传统遗忘机制,重新定义了AI架构设计。全新模型Moneta、Yaad、Memora,在多个任务上全面超越Transformer。这一次,谷歌不是调参,而是换脑!

来自主题: AI技术研报
7188 点击    2025-06-07 14:19
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果: 在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。

来自主题: AI技术研报
6040 点击    2025-06-06 11:08
让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

清华与蚂蚁联合开源AReaL-boba²,实现全异步强化学习训练系统,有效解耦模型生成与训练流程,GPU利用率大幅提升。14B模型在多个代码基准测试中达到SOTA,性能接近235B模型。异步RL训练上大分!

来自主题: AI技术研报
5305 点击    2025-06-05 16:30
姚顺雨提到的「AI下半场」,产品评估仍被误解

姚顺雨提到的「AI下半场」,产品评估仍被误解

姚顺雨提到的「AI下半场」,产品评估仍被误解

前段时间,OpenAI 研究员姚顺雨发表了一篇主题为「AI 下半场」的博客。其中提到,「接下来,AI 的重点将从解决问题转向定义问题。在这个新时代,评估的重要性将超过训练。我们需要重新思考如何训练 AI 以及如何衡量进展,这可能需要更接近产品经理的思维方式。」(参见《清华学霸、OpenAI 姚顺雨:AI 下半场开战,评估将比训练重要》)

来自主题: AI资讯
6027 点击    2025-06-03 13:40
清华创业团队打造!国内首个专注AI推理Serverless GPU平台

清华创业团队打造!国内首个专注AI推理Serverless GPU平台

清华创业团队打造!国内首个专注AI推理Serverless GPU平台

你有没有遇到过这样的算力困境:买了 GPU,用不了几次就闲置烧钱,偶尔想用的时候却一卡难求?

来自主题: AI技术研报
4875 点击    2025-05-28 15:09
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

基于开源模型继续在下游任务上使用私有下游数据进行微调,得到在下游任务表现更好的专有模型,已经成为了一类标准范式。

来自主题: AI技术研报
9060 点击    2025-05-28 09:55
比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

普林斯顿大学与字节 Seed、北大、清华等研究团队合作提出了 MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。

来自主题: AI技术研报
8047 点击    2025-05-22 17:30