AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

当前,所有主流的视觉基础模型(如 SigLIP、DINOv2 等)都仍然在低分辨率(如 384 * 384 分辨率)下进行预训练。对比人类视觉系统可以轻松达到 10K 等效分辨率,这种低分辨率预训练极大地限制了视觉模型对于高清细节的理解能力。

来自主题: AI技术研报
5794 点击    2025-04-17 13:54
JHU提出最强ToM方法,AutoToM横扫五大基准

JHU提出最强ToM方法,AutoToM横扫五大基准

JHU提出最强ToM方法,AutoToM横扫五大基准

如何让 AI 像人一样思考?如何拥有像人一样的认知能力和社会能力?

来自主题: AI技术研报
8030 点击    2025-04-17 10:27
从思考到行动:大模型自主工具调用能力的深度实现

从思考到行动:大模型自主工具调用能力的深度实现

从思考到行动:大模型自主工具调用能力的深度实现

GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力:理解上下文关联、拆解多步骤问题、甚至通过思维链(Chain - of - Thought)进行自我验证、自我反思等推理过程。

来自主题: AI技术研报
5821 点击    2025-04-17 10:00
MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论

MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论

MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论

MIT物理学大牛Max Tegmark团队,再出重磅力作。他们发现:AI能够在没有任何先验知识的情况下,完全独立地提出哈密顿物理量,或拉格朗日方程式。仅仅通过尝试解释数据,AI就自己收敛到了这些物理原则,发现了宇宙间的奥秘!

来自主题: AI技术研报
7194 点击    2025-04-16 15:47
聊一聊 Tool、MCP 和 Agent 来龙去脉 | 大白话技术科普系列@Jomy

聊一聊 Tool、MCP 和 Agent 来龙去脉 | 大白话技术科普系列@Jomy

聊一聊 Tool、MCP 和 Agent 来龙去脉 | 大白话技术科普系列@Jomy

将与 Jomy 共同完成一系列技术科普,让最一线的工程师、用通俗的语言、讲最前沿的技术。这是系列第一篇,主题是最近大火的 MCP 和 Agent。读完本文,你一定会感叹:终于搞懂了!原来!竟然!这么简单!

来自主题: AI技术研报
6301 点击    2025-04-16 15:03
迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了

迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了

迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了

近年来,大模型(Large Language Models, LLMs)在数学、编程等复杂任务上取得突破,OpenAI-o1、DeepSeek-R1 等推理大模型(Reasoning Large Language Models,RLLMs)表现尤为亮眼。但它们为何如此强大呢?

来自主题: AI技术研报
7992 点击    2025-04-16 15:00
视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

港中文和清华团队推出Video-R1模型,首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集,Video-R1在视频空间推理测试中超越了GPT-4o,展现了强大的推理能力,并且全部代码和数据集均已开源。

来自主题: AI技术研报
7842 点击    2025-04-16 14:42
生成式 AI 引爆广告效率革命,揭秘京东大模型应用架构的实践之道

生成式 AI 引爆广告效率革命,揭秘京东大模型应用架构的实践之道

生成式 AI 引爆广告效率革命,揭秘京东大模型应用架构的实践之道

在京东广告的大模型应用架构中,召回环节至关重要。传统召回方式在规则灵活性和用户需求捕捉上存在局限,而大模型带来了新的契机,但也面临训练成本和隐私保护的挑战。

来自主题: AI技术研报
5182 点击    2025-04-16 14:27
究竟该用哪一个?A2A 与 MCP 协议及三大核心差异,PocketFlow作者重磅解析 | 最新

究竟该用哪一个?A2A 与 MCP 协议及三大核心差异,PocketFlow作者重磅解析 | 最新

究竟该用哪一个?A2A 与 MCP 协议及三大核心差异,PocketFlow作者重磅解析 | 最新

想象一个世界:AI 智能体不再仅仅为你工作,更能彼此协作,形成强大的合力。谷歌的智能体到智能体(A2A)协议,正致力于将孤立的 AI 执行者转变为高效的协作团队。但它与 Anthropic 的模型上下文协议(MCP)相比,孰优孰劣?本文将为您深入剖析。

来自主题: AI技术研报
6197 点击    2025-04-16 14:16
“像素方块”里的冒险:AI能否挺进自由世界?

“像素方块”里的冒险:AI能否挺进自由世界?

“像素方块”里的冒险:AI能否挺进自由世界?

如果你曾在夜幕降临时,慌忙围出一块勉强能放下一张床的木屋,躲避午夜里徘徊的怪物;如果你曾在那片方块拼接的世界里,复现从自家校园到逶迤阿房的一切建筑;如果你曾沿着蜿蜒的矿道深挖,只为追寻岩浆洞穴里那抹耀眼的蓝绿色……那么,你一定懂得《我的世界》(Minecraft)的魅力!

来自主题: AI技术研报
7690 点击    2025-04-16 09:54
视觉自回归生成理解编辑大一统!北大团队多模态新突破,VARGPT-v1.1训练数据代码全面开源

视觉自回归生成理解编辑大一统!北大团队多模态新突破,VARGPT-v1.1训练数据代码全面开源

视觉自回归生成理解编辑大一统!北大团队多模态新突破,VARGPT-v1.1训练数据代码全面开源

北京大学团队继VARGPT实现视觉理解与生成任务统一之后,再度推出了VARGPT-v1.1版本。该版本进一步提升了视觉自回归模型的能力,不仅在在视觉理解方面有所加强,还在图像生成和编辑任务中达到新的性能高度

来自主题: AI技术研报
6578 点击    2025-04-16 09:44
OpenAI姚顺雨:欢迎来到AI下半场!

OpenAI姚顺雨:欢迎来到AI下半场!

OpenAI姚顺雨:欢迎来到AI下半场!

要理解上半场,看看它的赢家。你认为到目前为止最有影响力的 AI 论文是哪些?我尝试了斯坦福大学 224N 课程的测验,答案并不令人惊讶:Transformer、AlexNet、GPT-3 等等。这些论文有什么共同点?它们提出了一些训练更好模型的基本突破。但同样,它们通过在一些基准测试上展示一些(显著的)改进来发表论文。

来自主题: AI技术研报
7966 点击    2025-04-16 09:24
用IBM的AutoPDL,让Agent的prompt实现数据驱动的自动优化,性能飙升68.9% |重磅

用IBM的AutoPDL,让Agent的prompt实现数据驱动的自动优化,性能飙升68.9% |重磅

用IBM的AutoPDL,让Agent的prompt实现数据驱动的自动优化,性能飙升68.9% |重磅

早在去年10月底IBM推出了PDL声明式提示编程语言,本篇是基于PDL的一种对Agent的自动优化方法,是工业界前沿的解决方案。当你在开发基于大语言模型的Agent产品时,是否曾经在提示模式选择和优化上浪费了大量时间?在各种提示模式(Zero-Shot、CoT、ReAct、ReWOO等)中选择最佳方案,再逐字斟酌提示内容,这一过程不仅耗时,而且常常依赖经验和直觉而非数据驱动的决策。

来自主题: AI技术研报
5854 点击    2025-04-16 09:18
支付宝被AI调用,一句话运营小红书!国内最大MCP社区来了,开发者狂欢

支付宝被AI调用,一句话运营小红书!国内最大MCP社区来了,开发者狂欢

支付宝被AI调用,一句话运营小红书!国内最大MCP社区来了,开发者狂欢

国内最大MCP中文社区上线了,支付宝、MiniMax明星服务在魔搭MCP广场独家首发,还有近1500款MCP服务全领域覆盖,再次降低AI开发门槛。

来自主题: AI技术研报
6919 点击    2025-04-15 16:26
本地知识库+智谱开源GLM-Z1-Air,安全私密、回答速度飞快!效果突破新高度【含MCP玩法】

本地知识库+智谱开源GLM-Z1-Air,安全私密、回答速度飞快!效果突破新高度【含MCP玩法】

本地知识库+智谱开源GLM-Z1-Air,安全私密、回答速度飞快!效果突破新高度【含MCP玩法】

大家好,我是袋鼠帝上个月底,智谱发布了一个非常牛逼的产品AutoGLM沉思版(国内首个免费使用的DeepResearch),它既能推理,又能动手,还能接管你的浏览器帮你干活儿。

来自主题: AI技术研报
7501 点击    2025-04-15 16:11
「开源版GPT-4o」来了!17B国产模型iDream-I1生图效果比肩4o,还可商用

「开源版GPT-4o」来了!17B国产模型iDream-I1生图效果比肩4o,还可商用

「开源版GPT-4o」来了!17B国产模型iDream-I1生图效果比肩4o,还可商用

前段时间,GPT-4o 火出了圈,其断崖式提升的生图、改图能力让每个人都想尝试一下。虽然 OpenAI 后来宣布免费用户也可以用,但出图慢、次数受限仍然困扰着没有订阅 ChatGPT 的普通人。

来自主题: AI技术研报
9061 点击    2025-04-15 16:04
AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

开源语音模型Orpheus让LLM涌现出人类情感!在A100 40GB显卡上,30亿参数模型的流式推理速度甚至超过了音频播放速度。甚至可以zero-shot克隆声音。

来自主题: AI技术研报
5842 点击    2025-04-15 15:26
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

移动GUI自动化智能体V-Droid采用「验证器驱动」架构,通过离散化动作空间并利用LLM评估候选动作,实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。

来自主题: AI技术研报
5854 点击    2025-04-15 14:53
免费用!阿里通义大模型上新,超逼真音视频生成SOTA!

免费用!阿里通义大模型上新,超逼真音视频生成SOTA!

免费用!阿里通义大模型上新,超逼真音视频生成SOTA!

近日,阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker,只需上传一段参考视频,不仅能学会视频中人物的表情和声音,还能模仿说话风格。相比传统的数字人生产流程,该方法能够有效降低制作成本,提高生成内容的真实感和互动体验,满足更广泛的应用需求。目前该项目已在魔搭社区、HuggingFace 开放体验入口,并提供了十多个模板,所有人可以直接免费使用。

来自主题: AI技术研报
5841 点击    2025-04-15 14:37
Nature计算科学最新:统计物理x机器学习用于求解组合优化问题

Nature计算科学最新:统计物理x机器学习用于求解组合优化问题

Nature计算科学最新:统计物理x机器学习用于求解组合优化问题

组合优化问题(COPs)在科学和工业领域无处不在,从物流调度到芯片设计,从社交网络分析到人工智能算法,其高效求解一直是研究热点。

来自主题: AI技术研报
5566 点击    2025-04-15 14:35
什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

近年来,大语言模型(LLMs)的对齐研究成为人工智能领域的核心挑战之一,而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习(RLHF),还是基于「RL-Free」的各类直接偏好优化方法(例如 DPO),都离不开高质量偏好数据集的构建。

来自主题: AI技术研报
6895 点击    2025-04-15 14:29