AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
专抓AI“看图说谎”,谷歌哥大用三类陷阱触发幻觉,打造可随技术发展动态演进的评估框架

专抓AI“看图说谎”,谷歌哥大用三类陷阱触发幻觉,打造可随技术发展动态演进的评估框架

专抓AI“看图说谎”,谷歌哥大用三类陷阱触发幻觉,打造可随技术发展动态演进的评估框架

幻觉(Hallucination),即生成事实错误或不一致的信息,已成为视觉-语言模型 (VLMs)可靠性面临的核心挑战。随着VLMs在自动驾驶、医疗诊断等关键领域的广泛应用,幻觉问题因其潜在的重大后果而备受关注。

来自主题: AI技术研报
5788 点击    2025-03-29 15:36
1.6万字Rankify完全指南:三行代码搞定RAG,24种重排序方法任你选 | 全网最详细。

1.6万字Rankify完全指南:三行代码搞定RAG,24种重排序方法任你选 | 全网最详细。

1.6万字Rankify完全指南:三行代码搞定RAG,24种重排序方法任你选 | 全网最详细。

继昨天《RAG太折磨人啦,试下pip install rankify,检索、重排序、RAG三合一,完美》发布之后,有许多朋友向我询问Rankify的具体使用方法和部署细节,尤其是生产环境如何处理自定义数据集和本地数据集。

来自主题: AI技术研报
5288 点击    2025-03-29 15:23
单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节

单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节

单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节

从单张图像生成灵活视角3D场景的技术来了,在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值。

来自主题: AI技术研报
5858 点击    2025-03-29 14:34
VBench-2.0:面向视频生成新世代的评测框架

VBench-2.0:面向视频生成新世代的评测框架

VBench-2.0:面向视频生成新世代的评测框架

近一年以来,AI 视频生成技术发展迅猛。自 2024 年初 Sora 问世后,大家惊喜地发现:原来 AI 可以生成如此逼真的视频,一时间各大高校实验室、互联网巨头 AI Lab 以及创业公司纷纷入局视频生成领域。

来自主题: AI技术研报
5842 点击    2025-03-29 14:13
《连线》杂志长文:疯狂追赶OpenAI的2年,谷歌都做了什么?

《连线》杂志长文:疯狂追赶OpenAI的2年,谷歌都做了什么?

《连线》杂志长文:疯狂追赶OpenAI的2年,谷歌都做了什么?

AGI的这两年,基本OpenAI压着谷歌打的两年,包括但不限于谷歌自己的失误、每次发布会的被截胡。比如这次Gemini 2.5 Pro 被 4o图片生成功能抢走了几乎所有关注点。但谷歌确实也在一直追赶,从最开始的措手不及,到现在已经开始有来有往。著名科技杂志《连线》采访了谷歌前和现员工超50人,发布了一篇长文,深度挖掘了谷歌这两年苦苦追赶Openai的内幕故事,

来自主题: AI技术研报
6863 点击    2025-03-29 14:01
CVPR 2025高分论文:从照片重建3D矢量,告别模糊渲染,重建边缘更清晰

CVPR 2025高分论文:从照片重建3D矢量,告别模糊渲染,重建边缘更清晰

CVPR 2025高分论文:从照片重建3D矢量,告别模糊渲染,重建边缘更清晰

三维高斯泼溅(3D Gaussian Splatting, 3DGS)技术基于高斯分布的概率模型叠加来表征场景,但其重建结果在几何和纹理边界处往往存在模糊问题。

来自主题: AI技术研报
7880 点击    2025-03-29 13:40
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

AI社区掀起用大模型玩游戏之风!例如国外知名博主让DeepSeek和Chatgpt下国际象棋的视频在Youtube上就获得百万播放,ARC Prize组织最近也发布了一个贪吃蛇LLM评测基准SnakeBench。

来自主题: AI技术研报
7703 点击    2025-03-29 10:19
3D领域DeepSeek「源神」启动!国产明星创业公司,一口气开源八大项目

3D领域DeepSeek「源神」启动!国产明星创业公司,一口气开源八大项目

3D领域DeepSeek「源神」启动!国产明星创业公司,一口气开源八大项目

3 月 28 日,专注于构建通用 3D 大模型的 VAST 一口气开源了两个 3D 生成项目 ——TripoSG 和 TripoSF。前者是一款基础 3D 生成模型,在图像到 3D 生成任务上远超所有闭源模型;后者则是 VAST 新一代三维基础模型 TripoSF 能在所有闭源模型中同样取得 SOTA 的基础组件,用于高分辨率的三维重建和生成任务。

来自主题: AI技术研报
7606 点击    2025-03-29 09:39
OpenAI破大防,拒绝率从98%骤降2%!陈怡然团队提出全新思维链劫持攻击

OpenAI破大防,拒绝率从98%骤降2%!陈怡然团队提出全新思维链劫持攻击

OpenAI破大防,拒绝率从98%骤降2%!陈怡然团队提出全新思维链劫持攻击

「思维链劫持」(H-CoT)的攻击方法,成功攻破了包括OpenAI o1/o3、DeepSeek-R1等在内的多款大型推理模型的安全防线。研究表明,这些模型的安全审查过程透明化反而暴露了弱点,攻击者可以利用其内部推理过程绕过安全防线,使模型拒绝率从98%骤降2%。

来自主题: AI技术研报
6083 点击    2025-03-28 16:09
大模型不再是路痴!空间推理的答案是RAG:旅游规划、附近推荐全解锁

大模型不再是路痴!空间推理的答案是RAG:旅游规划、附近推荐全解锁

大模型不再是路痴!空间推理的答案是RAG:旅游规划、附近推荐全解锁

Spatial-RAG结合了空间数据库和大型语言模型(LLM)的能力,能够处理复杂的空间推理问题。通过稀疏和密集检索相结合的方式,Spatial-RAG可以高效地从空间数据库中检索出满足用户查询的空间对象,并利用LLM的语义理解能力对这些对象进行排序和生成最终答案。

来自主题: AI技术研报
5622 点击    2025-03-28 15:47
巴克莱研报:人工智能下一步发展方向?

巴克莱研报:人工智能下一步发展方向?

巴克莱研报:人工智能下一步发展方向?

巴克莱银行发布了一份关于人工智能下一个方向的研报。 标题是“人工智能下一步发展方向?向推理和代理的‘大转变’”。

来自主题: AI技术研报
5914 点击    2025-03-28 11:04
你的美图App,在CVPR技术5连秀

你的美图App,在CVPR技术5连秀

你的美图App,在CVPR技术5连秀

图像编辑大礼包!美图5篇技术论文入围CVPR 2025。

来自主题: AI技术研报
3510 点击    2025-03-28 10:52
为什么大模型在 OCR 任务上表现不佳?

为什么大模型在 OCR 任务上表现不佳?

为什么大模型在 OCR 任务上表现不佳?

你是否曾经用最先进的大语言模型处理企业文档,却发现它把财务报表中的“$1,234.56”读成了“123456”?或者在处理医疗记录时,将“0.5mg”误读为“5mg”?对于依赖数据准确性的运营和采购团队来说,这些问题不仅影响工作效率,更可能导致财务损失、法律风险甚至造成医疗事故。

来自主题: AI技术研报
5792 点击    2025-03-28 10:25
到底什么是踏马的 Agentic Workflows?

到底什么是踏马的 Agentic Workflows?

到底什么是踏马的 Agentic Workflows?

AI Agents,Agentic AI,Agentic Architectures,Agentic Workflows......

来自主题: AI技术研报
7951 点击    2025-03-28 10:03
Dense与MoE大模型架构后续发展解读

Dense与MoE大模型架构后续发展解读

Dense与MoE大模型架构后续发展解读

过去十年,自然语言处理领域经历了从统计语言模型到大型语言模型(LLMs)的飞速发展。

来自主题: AI技术研报
9122 点击    2025-03-28 09:45
Multi-Agents 系统太难搞了,不要轻易尝试 | UC Berkeley 论文分享

Multi-Agents 系统太难搞了,不要轻易尝试 | UC Berkeley 论文分享

Multi-Agents 系统太难搞了,不要轻易尝试 | UC Berkeley 论文分享

这两年,AI 领域最激动人心的进展莫过于大型语言模型(LLM)的崛起,LLM 展现了惊人的理解和生成能力。

来自主题: AI技术研报
7848 点击    2025-03-28 09:33
RAG太折磨人啦,试一下pip install rankify,检索、重排序、RAG三合一,完美。| 独家

RAG太折磨人啦,试一下pip install rankify,检索、重排序、RAG三合一,完美。| 独家

RAG太折磨人啦,试一下pip install rankify,检索、重排序、RAG三合一,完美。| 独家

现有RAG工具的碎片化和复杂性常常让开发者头疼不已。昨天我的Agent群里朋友们就Rerank问题展开激烈讨论,我想起之前看到的一篇论文,这项研究介绍了一个完美的开源python工具包Rankify,它将检索、重排序和RAG三大功能整合在一个统一框架中,大幅简化了开发流程。

来自主题: AI技术研报
3393 点击    2025-03-28 09:24
上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能

上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能

上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能

近日,上海财经大学统计与数据科学学院张立文教授与其领衔的金融大语言模型课题组(SUFE-AIFLM-Lab)联合数据科学和统计研究院、财跃星辰、滴水湖高级金融学院正式发布首款 DeepSeek-R1 类推理型人工智能金融大模型:Fin-R1,以仅 7B 的轻量化参数规模展现出卓越性能,全面超越参评的同规模模型并以 75 的平均得

来自主题: AI技术研报
6615 点击    2025-03-27 09:41
轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动

轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动

轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动

轨迹可控的视频生成来了,支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。研究人员提出了MagicMotion,一种创新的图像到视频生成框架,共同第一作者为复旦大学研究生李全昊、邢桢,通讯作者为复旦大学吴祖煊副教授。

来自主题: AI技术研报
4855 点击    2025-03-27 09:17
Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型

Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型

Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型

在Stable Diffusion当中,只需加入一个LoRA就能根据图像创建3D模型了?

来自主题: AI技术研报
5781 点击    2025-03-26 14:56
视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升

视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升

视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升

视频作为包含大量时空信息和语义的媒介,对于 AI 理解、模拟现实世界至关重要。视频生成作为生成式 AI 的一个重要方向,其性能目前主要通过增大基础模型的参数量和预训练数据实现提升,更大的模型是更好表现的基础,但同时也意味着更苛刻的计算资源需求。

来自主题: AI技术研报
6905 点击    2025-03-26 14:43
你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新

你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新

你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新

这项来自约翰霍普金斯与ETH Zurich的自主科研智能体框架AgentRxiv的确可以显著提高研究效率。我在测试了多次之后用Deepseek-V3-0324实现了它。

来自主题: AI技术研报
3688 点击    2025-03-26 14:37