AI资讯新闻榜单内容搜索-模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型
Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏

Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏

Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏

刚刚,Anthropic 发布了一项新研究成果。今天,他们发布的成果是《Natural emergent misalignment from reward hacking》,来自 Anthropic 对齐团队(Alignment Team)。他们发现,现实中的 AI 训练过程可能会意外产生未对齐的(misaligned)模型。

来自主题: AI技术研报
7744 点击    2025-11-22 15:33
罗福莉首个小米成果!开源具身大模型

罗福莉首个小米成果!开源具身大模型

罗福莉首个小米成果!开源具身大模型

正式入职小米还不到10天,罗福莉的首篇论文,这就来了!针对自驾与具身操作场景的知识迁移难题,MiMo团队提出并开源了全球首个打通这两大领域的跨具身(X - Embodied)基座模型——MiMo-Embodied。

来自主题: AI技术研报
7715 点击    2025-11-22 15:20
硅谷天选之女,刷脸刷出3500亿AI独角兽!

硅谷天选之女,刷脸刷出3500亿AI独角兽!

硅谷天选之女,刷脸刷出3500亿AI独角兽!

硅谷这帮人,胆子是真的大啊!一个几乎0模型、0产品的公司,就靠着创始人的出身,硬生生估值到500亿美元!Thinking Machines Lab又要融资了,这次要筹集40亿至50亿美元。

来自主题: AI资讯
8314 点击    2025-11-22 11:38
国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,划重点:开源

国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,划重点:开源

国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,划重点:开源

首个拿下国际物理奥林匹克竞赛IPhO 2025理论考试金牌的开源模型,出自国产。上海人工智能实验室团队推出新模型家族,代号P1。在IPhO 2025理论考试中,P1-235B-A22B取得21.2/30分,成为首个达到该金牌线的开源模型,仅次于Gemini-2.5-Pro与GPT-5。

来自主题: AI技术研报
7117 点击    2025-11-22 11:37
“美国公司制造的最好开源模型”,基模来自DeepSeek

“美国公司制造的最好开源模型”,基模来自DeepSeek

“美国公司制造的最好开源模型”,基模来自DeepSeek

总部位于旧金山的初创公司 Deep Cogito 发布了其最新一代旗舰模型 Cogito v2.1 671B。公司 CEO Drishan Arora 在社交平台 X 上豪情万丈地宣布:“今天,我们发布了由美国公司制造的最好的开源大语言模型。”

来自主题: AI资讯
7420 点击    2025-11-22 11:36
AI问答,直接「拍」给你看!来自快手可灵&香港城市大学

AI问答,直接「拍」给你看!来自快手可灵&香港城市大学

AI问答,直接「拍」给你看!来自快手可灵&香港城市大学

今天,来自快手可灵团队和香港城市大学的研究者们,正在尝试打破这一界限。他们提出了一个全新的任务范式——「视频作为答案」,并发布了相应模型VANS。而这项工作则开创性地提出了Video-Next Event Prediction任务,要求模型直接生成一段动态视频作为回答。

来自主题: AI技术研报
7375 点击    2025-11-22 11:34
SGLang Diffusion震撼发布:图像视频生成速度猛提57%!

SGLang Diffusion震撼发布:图像视频生成速度猛提57%!

SGLang Diffusion震撼发布:图像视频生成速度猛提57%!

就在一周前,全宇宙最火爆的推理框架 SGLang 官宣支持了 Diffusion 模型,好评如潮。团队成员将原本在大语言模型推理中表现突出的高性能调度与内核优化,扩展到图像与视频扩散模型上,相较于先前的视频和图像生成框架,速度提升最高可达 57%:

来自主题: AI技术研报
6784 点击    2025-11-22 11:33
GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则

GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则

GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则

最新PRBench基准可以测试AI在金融和法律领域的表现。结果显示,即使是顶尖大模型在处理复杂任务时也表现不佳,尤其在涉及重大经济后果的任务中。PRBench通过模拟真实场景和多轮对话,揭示了AI在专业领域的不足,强调开发更可靠AI系统的重要性。

来自主题: AI技术研报
6635 点击    2025-11-22 11:33
无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%

无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%

无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%

专注推理任务的 Large Reasoning Models 在数学基准上不断取得突破,但也带来了一个重要问题:越想越长、越长越错。本文解读由 JHU、UNC Charlotte 等机构团队的最新工作

来自主题: AI技术研报
6278 点击    2025-11-22 11:31
Agent出海踩坑实录

Agent出海踩坑实录

Agent出海踩坑实录

“我曾经花了5个月,做了一款没人用的大模型。”去年4月,刘天强期待拿下美国一家快时尚零售公司的大单,为对方开发一款用AI生成产品上身图的B端产品。带着团队干了整整5个月,产品迭代的重要关头,刘天强没等来最后的签单通知,却等来了客户公司被并购、项目中止的消息。

来自主题: AI资讯
7406 点击    2025-11-21 22:28