AI资讯新闻榜单内容搜索-OTA

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: OTA
ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文,介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复,而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark,MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报
8123 点击    2026-03-30 15:02
一夜之间,AI终获「永久记忆」!最难考试99%刷爆SOTA,全网直呼疯狂

一夜之间,AI终获「永久记忆」!最难考试99%刷爆SOTA,全网直呼疯狂

一夜之间,AI终获「永久记忆」!最难考试99%刷爆SOTA,全网直呼疯狂

AI终于有了「永久记忆」!今天,超级记忆系统ASMR重磅登场,在业界公认最难AI记忆考试中,刷爆SOTA拿下99%成绩。全网直呼太疯狂。

来自主题: AI技术研报
7395 点击    2026-03-24 10:46
500行极简开源框架,硬刚GPT/Gemini视觉极限!

500行极简开源框架,硬刚GPT/Gemini视觉极限!

500行极简开源框架,硬刚GPT/Gemini视觉极限!

多模态模型代码写得像老司机,却在数手指、量柱子时频频翻车?UniPat AI用五百行代码打造的SWE-Vision,让模型「掏出Python尺子」自我验证,一举拿下五大视觉相关基准SOTA。

来自主题: AI资讯
7838 点击    2026-03-16 15:08
UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

多模态大模型在代码能力上进步惊人,但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision,让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中,SWE-Vision 均达到了当前最优水平。

来自主题: AI技术研报
9268 点击    2026-03-16 14:25
北约将活蟑螂的神经接入AI,化身无孔不入的赛博格侦察兵

北约将活蟑螂的神经接入AI,化身无孔不入的赛博格侦察兵

北约将活蟑螂的神经接入AI,化身无孔不入的赛博格侦察兵

活体蟑螂变身「赛博侦察兵」!德国公司利用神经接口和 AI 背包,将电子系统与昆虫躯体暴力缝合。它们能潜入无人机进不去的复杂绝境,更试图以生物繁殖代替工业制造,科技与军事的边界正被恐怖打破。

来自主题: AI资讯
9368 点击    2026-03-13 11:57
谷歌AGI底座降临!首个原生全模态嵌入模型上线,已实现全模态SOTA

谷歌AGI底座降临!首个原生全模态嵌入模型上线,已实现全模态SOTA

谷歌AGI底座降临!首个原生全模态嵌入模型上线,已实现全模态SOTA

谷歌发布首个原生全模态 Embedding 模型 Gemini Embedding 2!它将文本、图、音视频及 PDF 无损融于统一向量空间,实现跨越五大模态的直接检索。这极大降低了架构成本,赋予了 AI 真正连贯的「记忆」,是重塑 AI 基建的里程碑。

来自主题: AI资讯
9059 点击    2026-03-12 10:21
国产物理AI黑马杀出!超越GPT与斯坦福Biomni,狂揽生物制造SOTA

国产物理AI黑马杀出!超越GPT与斯坦福Biomni,狂揽生物制造SOTA

国产物理AI黑马杀出!超越GPT与斯坦福Biomni,狂揽生物制造SOTA

生物研发进步提速长期受制于海量人工试错。恩和首发全球生物制造物理 AI 平台 SAION,打破 AI 仅限虚拟辅助的痛点。最大惊喜是它「长出了手脚」,能自主设计并直接调度设备执行真实实验,实现闭环进化!其生物科研表现全面超越 GPT 与斯坦福 Biomni,实现 SOTA。AI 科学家终于下场干活了!

来自主题: AI资讯
7327 点击    2026-03-11 16:29
一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX,只需一个模型,就能从文本、视频、图像等任意模态生成高质量音效和音乐,在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench,并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报
7333 点击    2026-03-09 14:29