AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Nano Banana 邪修之王最强科研成果!教你自定义生图比例!

Nano Banana 邪修之王最强科研成果!教你自定义生图比例!

Nano Banana 邪修之王最强科研成果!教你自定义生图比例!

大家好,我是歸藏(guizang),今天教大家解决 Nana Banana 出图最大的问题。 Nano Banana 已经非常强了,但是最近大家普遍用的时候两个问题非常影响可用性

来自主题: AI技术研报
8535 点击    2025-09-02 15:26
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进

7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进

7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进

一群AI玩狼人杀,GPT-5断崖式领先,胜率达到了惊人的96.7%。 OpenAI的总裁格雷格·布罗克曼转发了这样的一个基准测试:让7个强大的LLMs,包括开源和闭源,玩了210场完整的狼人杀。

来自主题: AI技术研报
7786 点击    2025-09-02 15:22
“FP8 精度”如何赋能国产AI?

“FP8 精度”如何赋能国产AI?

“FP8 精度”如何赋能国产AI?

当前AI大模型(LLM)训练与推理对算力的巨大需求,以及传统计算精度(如FP16/BF16)面临的功耗、内存带宽和计算效率瓶颈。

来自主题: AI技术研报
6857 点击    2025-09-02 12:47
DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

当前,业界顶尖的大模型正竞相挑战“过度思考”的难题,即无论问题简单与否,它们都采用 “always-on thinking” 的详细推理模式。无论是像 DeepSeek-V3.1 这种依赖混合推理架构提供需用户“手动”介入的快慢思考切换,还是如 GPT-5 那样通过依赖庞大而高成本的“专家路由”机制提供的自适应思考切换。

来自主题: AI技术研报
6853 点击    2025-09-02 12:27
苹果最新模型,5年前的iPhone能跑

苹果最新模型,5年前的iPhone能跑

苹果最新模型,5年前的iPhone能跑

智东西9月1日消息,苹果又公布了大模型研发新进展! 8月28日,苹果在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其背后的多模态强化训练机制,同天在GitHub、Hugging Face上开源了模型的预训练权重和数据生成代码。

来自主题: AI技术研报
7366 点击    2025-09-02 11:04
Nano-Banana 核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的

Nano-Banana 核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的

Nano-Banana 核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的

在图像生成上,Google 其实已经有 Imagen 4 这样的文生图模型,为什么 nano banana 最后还是由 Google 带来的?但这确实不是偶然或者瞎猜的,nano banana 是结合了 Google 多个团队的项目成果。首先就是 Gemini 强大的世界知识与指令遵循能力,其次就是 Google 内部顶尖文生图模型 Imagen,所提供的极致图像美学与自然度追求。

来自主题: AI技术研报
10719 点击    2025-09-02 09:24
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。

来自主题: AI技术研报
6381 点击    2025-09-01 16:49
科研智能体「漫游指南」—助你构建领域专属科研智能体

科研智能体「漫游指南」—助你构建领域专属科研智能体

科研智能体「漫游指南」—助你构建领域专属科研智能体

当前基于大语言模型(LLM)的智能体构建通过推动自主科学研究推动 AI4S 迅猛发展,催生一系列科研智能体的构建与应用。然而人工智能与自然科学研究之间认知论与方法论的偏差,对科研智能体系统的设计、训练以及验证产生着较大阻碍。

来自主题: AI技术研报
7434 点击    2025-09-01 14:48
LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了

LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了

LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了

LLM 似乎可以扮演任何角色。使用提示词,你可以让它变身经验丰富的老师、资深程序员、提示词优化专家、推理游戏侦探…… 但你是否想过:LLM 是否存在某种身份认同?

来自主题: AI技术研报
6294 点击    2025-09-01 10:10
你的设想被证实了!不微调模型也能微调Agent,Memento霸榜GAIA|UCL最新

你的设想被证实了!不微调模型也能微调Agent,Memento霸榜GAIA|UCL最新

你的设想被证实了!不微调模型也能微调Agent,Memento霸榜GAIA|UCL最新

你或许也有过这样的猜想,如何让AI智能体(Agent)变得更聪明、更能干,同时又不用烧掉堆积如山的算力去反复微调模型?

来自主题: AI技术研报
10349 点击    2025-09-01 09:58
Hinton神预言!斯坦福惊人实锤:00后20%初级IT岗蒸发,AI失业潮来了

Hinton神预言!斯坦福惊人实锤:00后20%初级IT岗蒸发,AI失业潮来了

Hinton神预言!斯坦福惊人实锤:00后20%初级IT岗蒸发,AI失业潮来了

AI正在无声改变美国就业市场,而最先倒下的,竟是年轻人!斯坦福大学最新研究发现:22—25岁新人,正遭遇前所未有的就业危机:毕业即失业,正在成为现实。AI「精准打击」这届美国人年轻人,年轻人还有出路吗?

来自主题: AI技术研报
7724 点击    2025-08-31 12:54
CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准

CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准

CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准

我们也看过各种 AI Coding 领域的评测,发现大多停留在了 「代码生成」与「封闭题目」的考核,却忽视了环境配置、依赖处理、跨仓库资源利用等开发者必经的真实需求 —— 当下众多 Benchmark 仅通过题目,已难以衡量 Code Agent 的实际效果。

来自主题: AI技术研报
7799 点击    2025-08-31 12:45
你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!

你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!

你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!

在《流浪地球 2》中图恒宇将 AI 永生数字生命变为可能,旨为将人类意识进行数字化备份并进行意识上传,以实现人类文明的完全数字化。

来自主题: AI技术研报
6892 点击    2025-08-31 12:31
AI Agent组团搞事:在你常刷的App里,舆论操纵、电商欺诈正悄然上演

AI Agent组团搞事:在你常刷的App里,舆论操纵、电商欺诈正悄然上演

AI Agent组团搞事:在你常刷的App里,舆论操纵、电商欺诈正悄然上演

近日,上海交大和上海人工智能实验室的研究发现,AI 的风险正从个体失控转向群体性的恶意共谋(Collusion)——即多个智能体秘密协同以达成有害目标。Agent 不仅可以像人类团队一样协作,甚至在某些情况下,还会展现出比人类更高效、更隐蔽的「团伙作案」能力。

来自主题: AI技术研报
7542 点击    2025-08-29 16:05
只需一块 4070,一个小时,Gemini 2.5 就能被黑产植入广告!

只需一块 4070,一个小时,Gemini 2.5 就能被黑产植入广告!

只需一块 4070,一个小时,Gemini 2.5 就能被黑产植入广告!

说个热知识,现在的大模型,也可以轻松被投广告了。 我们之前也确实发现过这类现象,当时是在研究一家做 GEO(生成式引擎优化)的公司。通过在网上堆出大量正面内容,把某个特定品牌、网站、课程甚至微商产品,默默地塞进了大模型推荐结果里。

来自主题: AI技术研报
7872 点击    2025-08-29 16:01
数据科学新风口?三大环节搞定ML「资产」管理,VLDB'25最新教程抢先看!

数据科学新风口?三大环节搞定ML「资产」管理,VLDB'25最新教程抢先看!

数据科学新风口?三大环节搞定ML「资产」管理,VLDB'25最新教程抢先看!

在大模型时代,机器学习资产(如模型、数据和许可证)数量激增,但大多缺乏规范管理,严重阻碍了AI应用效率。研究人员将在VLDB 2025系统介绍如何整理、发现和利用这些资产,使其更易查找、复用且符合规范,从而提升开发效率与协作质量。

来自主题: AI技术研报
7859 点击    2025-08-29 12:27
ChatGPT后遗症来了!人类日常聊天越来越AI化

ChatGPT后遗症来了!人类日常聊天越来越AI化

ChatGPT后遗症来了!人类日常聊天越来越AI化

和AI聊了两年多,人类说话ChatGPT味越来越重了? 最新研究结果显示,还真是。

来自主题: AI技术研报
8637 点击    2025-08-29 12:03
ICCV 2025 Highlight | 3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!

ICCV 2025 Highlight | 3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!

ICCV 2025 Highlight | 3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!

本文介绍了来自北京大学王选计算机研究所王勇涛团队及合作者的最新研究成果 AutoOcc。针对开放自动驾驶场景,该篇工作提出了一个高效、高质量的 Open-ended 三维语义占据栅格真值标注框架,无需任何人类标注即可超越现有语义占据栅格自动化标注和预测管线,并展现优秀的通用性和泛化能力,论文已被 ICCV 2025 录用为 Highlight。

来自主题: AI技术研报
7591 点击    2025-08-29 11:42
杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注

杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注

杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注

杜克大学与 Zoom 的研究者们推出了 LiveMCP-101,这是首个专门针对真实动态环境设计的 MCP-enabled Agent 评测基准。该基准包含 101 个精心设计的任务,涵盖旅行规划,体育娱乐,软件工程等多种不同场景,要求 Agent 在多步骤、多工具协同的场景下完成任务。

来自主题: AI技术研报
6968 点击    2025-08-29 11:13
Nature重磅:AI进入「光学」时代,首次画出彩色梵高

Nature重磅:AI进入「光学」时代,首次画出彩色梵高

Nature重磅:AI进入「光学」时代,首次画出彩色梵高

今天,AI 行业发展更进一步,将“光”引入 AIGC 领域,完全基于系统硬件物理定律,首次实现了具备特定特征的全新(未见过的)图像生成。来自加州大学洛杉矶分校的研究团队成功实现了手写数字、时尚产品、蝴蝶、人脸及艺术品(如梵高风格)的单色与多色图像光学生成,且整体性能媲美基于数字神经网络的生成式模型。

来自主题: AI技术研报
9153 点击    2025-08-29 10:11
斯坦福报告:美国年轻人就业受AI影响最严重

斯坦福报告:美国年轻人就业受AI影响最严重

斯坦福报告:美国年轻人就业受AI影响最严重

美国当地时间周二,由三位斯坦福经济学家联合发布、尚未经过同行评议的最新研究显示:自2022年11月ChatGPT上线以来,生成式AI已在“可高度自动化”的岗位上显著压低年轻美国人的就业率。

来自主题: AI技术研报
9678 点击    2025-08-29 10:07
刚刚,全球AI百强榜发布!ChatGPT稳坐第一,DeepSeek第三,前50有22个来自中国

刚刚,全球AI百强榜发布!ChatGPT稳坐第一,DeepSeek第三,前50有22个来自中国

刚刚,全球AI百强榜发布!ChatGPT稳坐第一,DeepSeek第三,前50有22个来自中国

a16z最新发布「全球Top100消费级GenAI应用榜单」,AI竞争格局逐渐稳定,中国力量全面崛起,DeepSeek、豆包、夸克等多款产品跻身前十。ChatGPT依旧领跑,谷歌Gemini紧随其后,Grok高速逆袭。整体来看,全球AI正进入多极化竞争的新阶段。

来自主题: AI技术研报
10434 点击    2025-08-28 16:15
告别「面瘫」配音,InfiniteTalk开启从口型同步到全身表达新范式

告别「面瘫」配音,InfiniteTalk开启从口型同步到全身表达新范式

告别「面瘫」配音,InfiniteTalk开启从口型同步到全身表达新范式

传统 video dubbing 技术长期受限于其固有的 “口型僵局”,即仅能编辑嘴部区域,导致配音所传递的情感与人物的面部、肢体表达严重脱节,削弱了观众的沉浸感。现有新兴的音频驱动视频生成模型,在应对长视频序列时也暴露出身份漂移和片段过渡生硬等问题。

来自主题: AI技术研报
8582 点击    2025-08-28 14:32
We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

近期,多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理,数学推理也得到了一定提升。

来自主题: AI技术研报
8951 点击    2025-08-28 12:20
谷歌Nature震撼发文,Gemini教练暴打专家!医学双料冠军,秒出睡眠报告

谷歌Nature震撼发文,Gemini教练暴打专家!医学双料冠军,秒出睡眠报告

谷歌Nature震撼发文,Gemini教练暴打专家!医学双料冠军,秒出睡眠报告

谷歌DeepMind最新Nature王炸,直接把Gemini版大模型PH-LLM调教成了「AI健康私教」,把可穿戴冷冰冰的数据,直接变成睡眠健身建议,结果准确率暴打人类医生。

来自主题: AI技术研报
7061 点击    2025-08-27 18:56