AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源

看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源

看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源

当前最强大的视觉语言模型(VLMs)虽然能“看图识物”,但在理解电影方面还不够“聪明”。

来自主题: AI技术研报
9220 点击    2025-07-17 10:19
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力,但它们的技术体系完全闭源。

来自主题: AI技术研报
8538 点击    2025-07-16 16:30
重塑记忆架构:LLM正在安装「操作系统」

重塑记忆架构:LLM正在安装「操作系统」

重塑记忆架构:LLM正在安装「操作系统」

超长上下文窗口的大模型也会经常「失忆」,「记忆」也是需要管理的。

来自主题: AI技术研报
8308 点击    2025-07-16 16:26
AI圈水太深:OpenAI保密、Meta作弊!国产MoE却异军突起

AI圈水太深:OpenAI保密、Meta作弊!国产MoE却异军突起

AI圈水太深:OpenAI保密、Meta作弊!国产MoE却异军突起

从GPT-2到Llama 4,大模型这几年到底「胖」了多少?从百亿级密集参数到稀疏MoE架构,从闭源霸权到开源反击,Meta、OpenAI、Mistral、DeepSeek……群雄割据,谁能称王?

来自主题: AI技术研报
7869 点击    2025-07-16 16:18
BCG最新报告:印度AI普及率92%登顶全球!中美意外落后?

BCG最新报告:印度AI普及率92%登顶全球!中美意外落后?

BCG最新报告:印度AI普及率92%登顶全球!中美意外落后?

你好,我是杰哥。 近日,波士顿咨询公司(BCG)发布了《ai-at-work-2025-slideshow-june-2025-edit-02》,简称《AI at Work 2025》第三版报告,基于对全球 10,635 名员工的调研,深入分析了 AI 在职场中的应用现状。这份报告揭示了 AI 应用的五大关键趋势,为企业和员工提供了重要洞察。

来自主题: AI技术研报
7585 点击    2025-07-16 16:13
DeepMind让AI当「上帝」,导演一场只有AI演员的「西部世界」

DeepMind让AI当「上帝」,导演一场只有AI演员的「西部世界」

DeepMind让AI当「上帝」,导演一场只有AI演员的「西部世界」

剧本杀大家都玩过吗?这是一种经典的桌上角色扮演游戏(TTRPG), 游戏中的核心人物是游戏主持人(GM), 相当于整个世界的「导演 + 编剧 + 旁白」,负责掌控游戏环境,讲述故事背景,并扮演所有非玩家角色(NPC)。

来自主题: AI技术研报
8211 点击    2025-07-16 15:42
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来,文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图,缺乏真正读懂图像与文本、在多模 态上下文中推理并创作的能力。能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作,一直是学术界和工业界关注的热门问题。

来自主题: AI技术研报
7907 点击    2025-07-16 15:19
只因一个“:”,大模型全军覆没

只因一个“:”,大模型全军覆没

只因一个“:”,大模型全军覆没

一个冒号,竟然让大模型集体翻车?

来自主题: AI技术研报
7445 点击    2025-07-16 10:45
倒反天罡:ChatGPT教人说话?36万视频+77万播客已证实!

倒反天罡:ChatGPT教人说话?36万视频+77万播客已证实!

倒反天罡:ChatGPT教人说话?36万视频+77万播客已证实!

你以为你在掌控AI,其实是AI在驯化你!最新研究警告:ChatGPT正改变英语的表达方式,悄然植入自己的偏好。是时候重新审视,我们到底在表达自我,还是AI的「复读机」?

来自主题: AI技术研报
7076 点击    2025-07-16 10:43
借着Kimi K2的小爆发,吐露一些近期对Model as Agent的小思考

借着Kimi K2的小爆发,吐露一些近期对Model as Agent的小思考

借着Kimi K2的小爆发,吐露一些近期对Model as Agent的小思考

上周五(711),月之暗面蛰伏半年,憋了个大的,正式发布Kimi K2模型,总参数1T,同步开源。具体模型效果就不过多赘述了,网上已经有很多实测。

来自主题: AI技术研报
8668 点击    2025-07-16 10:18
智能跃迁:像大模型一样进化

智能跃迁:像大模型一样进化

智能跃迁:像大模型一样进化

我们正经历一场前所未有的智能跃迁。人工智能带来的,远不止于技术革新,更是一场深刻重塑人类认知、教育与生存方式的范式转移。

来自主题: AI技术研报
7537 点击    2025-07-16 10:15
为什么你用AI编程总拿不到想要的结果?北航研究揭秘:50%问题来自CoT和你自己

为什么你用AI编程总拿不到想要的结果?北航研究揭秘:50%问题来自CoT和你自己

为什么你用AI编程总拿不到想要的结果?北航研究揭秘:50%问题来自CoT和你自己

现在几乎所有主流的代码生成工具都在用CoT。但问题来了:这些"思考步骤"真的可靠吗?来自北京航空航天大学的研究者们发现,虽然CoT提升了性能,但关于这些中间推理步骤的质量,学术界竟然没有系统性的研究!

来自主题: AI技术研报
6834 点击    2025-07-16 10:13
南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述

南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述

南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述

本文作者来自:南京大学、香港大学、中南大学、地平线、中国科学院计算所、上海交通大学、慕尼黑工业大学、清华大学。

来自主题: AI技术研报
8011 点击    2025-07-15 15:25
谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

Google双线出击!T5Gemma重燃encoder-decoder架构战火,性能暴涨12分;MedGemma坚守decoder-only路线,强攻医疗多模态,击穿闭源壁垒。Gemma体系完成「架构+落地」双重进化,打响Google开源反击战。

来自主题: AI技术研报
7740 点击    2025-07-15 15:05
彻底压榨潜能!我用 Kimi K2 写了一套前端组件库

彻底压榨潜能!我用 Kimi K2 写了一套前端组件库

彻底压榨潜能!我用 Kimi K2 写了一套前端组件库

大家好,我是歸藏(guizang),今天展示一下我用 Kimi K2 实现的一套组件库,以及K2 替代 Claude Code 的默认模型的教程补充。

来自主题: AI技术研报
8947 点击    2025-07-15 13:33
微软研究了20万Copilot真实对话:AI到底改变了哪些工作?

微软研究了20万Copilot真实对话:AI到底改变了哪些工作?

微软研究了20万Copilot真实对话:AI到底改变了哪些工作?

每当我们讨论AI对就业的影响时,大多数都是专家拍脑袋的预测。但微软研究院的这篇论文不一样,他们分析了20万个真实的Microsoft bing Copilot用户对话,每一个数据点背后都是一个真实的人,一个真实的工作场景,首次用硬数据告诉我们:AI到底在改变什么工作?哪些工作活动和职业正在被生成式AI(Generative AI)最大程度地影响?

来自主题: AI技术研报
7935 点击    2025-07-15 12:18
首次综述「边-云协同计算」,分布式智能与模型优化的最新进展

首次综述「边-云协同计算」,分布式智能与模型优化的最新进展

首次综述「边-云协同计算」,分布式智能与模型优化的最新进展

边缘-云协同计算通过整合边缘节点和云端资源,解决了传统云计算的延迟和带宽问题,推动了分布式智能和模型优化的发展。最新综述论文系统梳理了ECCC的架构设计、模型优化、资源管理、隐私安全和实际应用,提出了统一的分布式智能与模型优化框架,为未来研究提供了方向,包括大语言模型部署、6G整合和量子计算等前沿技术。

来自主题: AI技术研报
8225 点击    2025-07-15 11:43
用子模优化做文本选择、段落重排和上下文工程

用子模优化做文本选择、段落重排和上下文工程

用子模优化做文本选择、段落重排和上下文工程

在上一篇关于子模优化与多样化查询的文章发表后,我们收到了来自圈内很多积极的反馈,希望我们能多聊聊子模性(submodularity)和子模优化,尤其是在信息检索和 Agentic Search 场景下的更多应用。

来自主题: AI技术研报
9130 点击    2025-07-15 11:05
智能之镜:NeuroAI如何反映大脑与人工智能的未来

智能之镜:NeuroAI如何反映大脑与人工智能的未来

智能之镜:NeuroAI如何反映大脑与人工智能的未来

在大语言模型能力如此强大的背景下,AI与神经科学之间的联系变得前所未有地重要,催生了一个新兴领域:NeuroAI。它关注两个角度的问题:

来自主题: AI技术研报
8391 点击    2025-07-15 10:32
AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

LLM正以前所未有的速度进化:METR发现,它们的智能每7个月就翻一番。到了2030年,一个模型可能只需几小时,就能搞定人类工程师几个月的工作。别眨眼,你的岗位或许已在倒计时中。

来自主题: AI技术研报
6719 点击    2025-07-15 10:24