AI资讯新闻榜单内容搜索-不

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 不
首篇「Attention Sink」综述:从利用、理解到消除,Transformer中的注意力「汇聚」全景解析

首篇「Attention Sink」综述:从利用、理解到消除,Transformer中的注意力「汇聚」全景解析

首篇「Attention Sink」综述:从利用、理解到消除,Transformer中的注意力「汇聚」全景解析

几乎所有 Transformer 都在做一件反常的事:把大量注意力集中到少数几个特定 Token 上。这不是 bug,而是 Transformer 固有的「注意力汇聚」(Attention Sink)。首篇系统性综述,带你从利用、理解到消除,全面掌握这一核心现象。

来自主题: AI技术研报
8762 点击    2026-04-24 09:14
OpenClaw,崩了!

OpenClaw,崩了!

OpenClaw,崩了!

五周前老黄亲自站台封神的OpenClaw,现在连自家大厂都不敢装最新版。疯狂迭代、系统频崩、下载腰斩,甚至连「一键跑路」代码都被端了上来。

来自主题: AI资讯
6642 点击    2026-04-24 09:14
刚刚,姚顺雨腾讯首秀来了!腾讯混元新模型 Hy3 Preview 正式亮相

刚刚,姚顺雨腾讯首秀来了!腾讯混元新模型 Hy3 Preview 正式亮相

刚刚,姚顺雨腾讯首秀来了!腾讯混元新模型 Hy3 Preview 正式亮相

刚刚,混元的 Hy3 Preview 也正式亮相,这是腾讯首席 AI 科学家姚顺雨主导的一个模型。姚顺雨表示,Hy3 preview是混元大模型重建的第一步。他希望通过这次开源和发布,不断提升 Hy3 正式版的实用性,以及模型在真实场景中的综合表现,并开始探索特色模型能力。

来自主题: AI资讯
8380 点击    2026-04-23 17:21
独家|DeepSeek 50亿起投,最新估值高达3000亿

独家|DeepSeek 50亿起投,最新估值高达3000亿

独家|DeepSeek 50亿起投,最新估值高达3000亿

一位接近DeepSeek的一线机构投资人士告诉我们,这些数字都不准确,DeepSeek融前估值是3000亿人民币,约合440亿美元。这一估值超过当前已经上市的大模型公司Minimax的2400亿(4月23日),接近智谱的3800亿元。

来自主题: AI资讯
8682 点击    2026-04-23 17:09
上海,跑出一家百亿独角兽-苏度科技!

上海,跑出一家百亿独角兽-苏度科技!

上海,跑出一家百亿独角兽-苏度科技!

成立不到一年,跻身“百亿估值俱乐部”。

来自主题: AI资讯
11687 点击    2026-04-23 15:15
Transformer可以改装成Mamba了:苹果把推理成本直接打成线性

Transformer可以改装成Mamba了:苹果把推理成本直接打成线性

Transformer可以改装成Mamba了:苹果把推理成本直接打成线性

最近,苹果又整了个活儿,很工程、也挺关键: 把又贵又强的 Transformer,改造成又便宜又差不多强的 Mamba。而且,性能基本没怎么掉。

来自主题: AI技术研报
8363 点击    2026-04-23 14:46
浙大开源多Agent演化系统:大圣棒打王熙凤,大观园沦为空城

浙大开源多Agent演化系统:大圣棒打王熙凤,大观园沦为空城

浙大开源多Agent演化系统:大圣棒打王熙凤,大观园沦为空城

浙江大学团队开源了一个基于多智能体技术的演化叙事系统OpenStory,不仅还原了经典《红楼梦》中的角色和场景,实验结果也揭示了AGI下系统脆弱性,引发对智能演化的深刻思考。

来自主题: AI资讯
10277 点击    2026-04-23 14:44
LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!

来自主题: AI技术研报
5971 点击    2026-04-23 14:05