AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
为什么大模型在 OCR 任务上表现不佳?

为什么大模型在 OCR 任务上表现不佳?

为什么大模型在 OCR 任务上表现不佳?

你是否曾经用最先进的大语言模型处理企业文档,却发现它把财务报表中的“$1,234.56”读成了“123456”?或者在处理医疗记录时,将“0.5mg”误读为“5mg”?对于依赖数据准确性的运营和采购团队来说,这些问题不仅影响工作效率,更可能导致财务损失、法律风险甚至造成医疗事故。

来自主题: AI技术研报
5822 点击    2025-03-28 10:25
到底什么是踏马的 Agentic Workflows?

到底什么是踏马的 Agentic Workflows?

到底什么是踏马的 Agentic Workflows?

AI Agents,Agentic AI,Agentic Architectures,Agentic Workflows......

来自主题: AI技术研报
7973 点击    2025-03-28 10:03
Dense与MoE大模型架构后续发展解读

Dense与MoE大模型架构后续发展解读

Dense与MoE大模型架构后续发展解读

过去十年,自然语言处理领域经历了从统计语言模型到大型语言模型(LLMs)的飞速发展。

来自主题: AI技术研报
9179 点击    2025-03-28 09:45
Multi-Agents 系统太难搞了,不要轻易尝试 | UC Berkeley 论文分享

Multi-Agents 系统太难搞了,不要轻易尝试 | UC Berkeley 论文分享

Multi-Agents 系统太难搞了,不要轻易尝试 | UC Berkeley 论文分享

这两年,AI 领域最激动人心的进展莫过于大型语言模型(LLM)的崛起,LLM 展现了惊人的理解和生成能力。

来自主题: AI技术研报
7872 点击    2025-03-28 09:33
RAG太折磨人啦,试一下pip install rankify,检索、重排序、RAG三合一,完美。| 独家

RAG太折磨人啦,试一下pip install rankify,检索、重排序、RAG三合一,完美。| 独家

RAG太折磨人啦,试一下pip install rankify,检索、重排序、RAG三合一,完美。| 独家

现有RAG工具的碎片化和复杂性常常让开发者头疼不已。昨天我的Agent群里朋友们就Rerank问题展开激烈讨论,我想起之前看到的一篇论文,这项研究介绍了一个完美的开源python工具包Rankify,它将检索、重排序和RAG三大功能整合在一个统一框架中,大幅简化了开发流程。

来自主题: AI技术研报
3414 点击    2025-03-28 09:24
上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能

上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能

上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能

近日,上海财经大学统计与数据科学学院张立文教授与其领衔的金融大语言模型课题组(SUFE-AIFLM-Lab)联合数据科学和统计研究院、财跃星辰、滴水湖高级金融学院正式发布首款 DeepSeek-R1 类推理型人工智能金融大模型:Fin-R1,以仅 7B 的轻量化参数规模展现出卓越性能,全面超越参评的同规模模型并以 75 的平均得

来自主题: AI技术研报
6646 点击    2025-03-27 09:41
轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动

轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动

轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动

轨迹可控的视频生成来了,支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。研究人员提出了MagicMotion,一种创新的图像到视频生成框架,共同第一作者为复旦大学研究生李全昊、邢桢,通讯作者为复旦大学吴祖煊副教授。

来自主题: AI技术研报
4872 点击    2025-03-27 09:17
Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型

Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型

Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型

在Stable Diffusion当中,只需加入一个LoRA就能根据图像创建3D模型了?

来自主题: AI技术研报
5801 点击    2025-03-26 14:56
视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升

视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升

视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升

视频作为包含大量时空信息和语义的媒介,对于 AI 理解、模拟现实世界至关重要。视频生成作为生成式 AI 的一个重要方向,其性能目前主要通过增大基础模型的参数量和预训练数据实现提升,更大的模型是更好表现的基础,但同时也意味着更苛刻的计算资源需求。

来自主题: AI技术研报
6922 点击    2025-03-26 14:43
你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新

你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新

你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新

这项来自约翰霍普金斯与ETH Zurich的自主科研智能体框架AgentRxiv的确可以显著提高研究效率。我在测试了多次之后用Deepseek-V3-0324实现了它。

来自主题: AI技术研报
3720 点击    2025-03-26 14:37
拾象科技万字详解MCP:Agentic AI中间层最优解,以及创业公司的三个机会

拾象科技万字详解MCP:Agentic AI中间层最优解,以及创业公司的三个机会

拾象科技万字详解MCP:Agentic AI中间层最优解,以及创业公司的三个机会

在拾象团队的 2025 的 AI 关键预测中,我们提到:随着 Agent 时代到来,OS 才是 LLM 厂商们最高的护城河,从 computer use 到 MCP,Anthropic 构建 OS 的决心是 AI labs 中最强、最明显的。

来自主题: AI技术研报
9307 点击    2025-03-26 10:14
Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

它名为 Uni-3DAR,来自深势科技、北京科学智能研究院及北京大学,是一个通过自回归下一 token 预测任务将 3D 结构的生成与理解统一起来的框架。据了解,Uni-3DAR 是世界首个此类科学大模型。并且其作者阵容非常强大,包括了深势科技 AI 算法负责人柯国霖、中国科学院院士鄂维南、深势科技创始人兼首席科学家和北京科学智能研究院院长张林峰等。

来自主题: AI技术研报
6585 点击    2025-03-26 09:10
挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

,清华大学、北京航空航天大学团队推出了全新的架构设计 ——Personalize Anything,它能够在无需训练的情况下,完成概念主体的高度细节还原,支持用户对物体进行细粒度的位置操控,并能够扩展至多个应用中,为个性化图像生成引入了一个新范式。

来自主题: AI技术研报
6603 点击    2025-03-26 09:04
AI智能体首次跨实验室协作,组队「抄作业」,论文发不停!科研效率暴增14%

AI智能体首次跨实验室协作,组队「抄作业」,论文发不停!科研效率暴增14%

AI智能体首次跨实验室协作,组队「抄作业」,论文发不停!科研效率暴增14%

AI不但能写论文,还能自主进行科研协作,让智能体之间不再是「孤岛」。约翰霍普金斯与ETH Zurich联合推出了自主科研智能体框架AgentRxiv。该框架允许智能体相互上传和检索研究成果,自动积累与迭代已有进展,显著提高研究效率。

来自主题: AI技术研报
7840 点击    2025-03-25 19:25
全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

AI界「智商大考」ARC-AGI-2重磅出炉了!一个人类用5分钟轻松解开的谜题,却让最顶尖LLM全线崩盘得分挂零,o3更是从曾经76%暴跌至4%。它正式宣告,人类还未实现AGI。

来自主题: AI技术研报
6961 点击    2025-03-25 17:53
简单吧,Agent优化就两种路径,有参数优化和无参数优化,你选哪种 | 最新综述

简单吧,Agent优化就两种路径,有参数优化和无参数优化,你选哪种 | 最新综述

简单吧,Agent优化就两种路径,有参数优化和无参数优化,你选哪种 | 最新综述

本文基于一项系统性研究《A Survey on the Optimization of Large Language Model-based Agents》,该研究由华东师大和东华大学多位人工智能领域的研究者共同完成。研究团队通过对大量相关文献的分析,构建了一个全面的LLM智能体优化框架,涵盖了从理论基础到实际应用的各个方面。您有兴趣可以找来读一下这篇综述。

来自主题: AI技术研报
4566 点击    2025-03-25 16:33
Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

从微观世界的分子与材料结构、到宏观世界的几何与空间智能,创建和理解 3D 结构是推进科学研究的重要基石。3D 结构不仅承载着丰富的物理与化学信息,也可为科学家提供解构复杂系统、进行模拟预测和跨学科创新的重要工具。

来自主题: AI技术研报
2530 点击    2025-03-25 15:21
深入学习AI Agent:6张图彻底看懂OpenManus,附从0入门教程

深入学习AI Agent:6张图彻底看懂OpenManus,附从0入门教程

深入学习AI Agent:6张图彻底看懂OpenManus,附从0入门教程

昨天我们介绍了什么是AI Agent,今天介绍一个开源的AI Agent框架,也是一号难求「Manus」的“平替”——OpenManus——曾经3小时完成Manus复刻的「神」

来自主题: AI技术研报
4080 点击    2025-03-25 15:13
DeepSeek解封“算力智子”后,数据成AI未来发展关键

DeepSeek解封“算力智子”后,数据成AI未来发展关键

DeepSeek解封“算力智子”后,数据成AI未来发展关键

在引发全球关注的同时,全球资本对中国科技资产的重新评估与 AI 投资的底层逻辑也悄然发生转变。尤其是在大模型领域,过去巨额投入却屡次推迟的ChatGPT5和本就步入下半场的国内六小龙,将直面 DeepSeek这匹黑马的强劲冲击。中国AI企业在DeepSeek突破了“算力禁运”之后,正面临高质量数据稀缺的挑战,尤其是高质量、低成本、多种类、多模态的数据,将成为未来 AI 产业发展的核心关键。

来自主题: AI技术研报
6952 点击    2025-03-25 15:02
挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

个性化图像生成是图像生成领域的一项重要技术,正以前所未有的速度吸引着广泛关注。它能够根据用户提供的独特概念,精准合成定制化的视觉内容,满足日益增长的个性化需求,并同时支持对生成结果进行细粒度的语义控制与编辑,使其能够精确实现心中的创意愿景。

来自主题: AI技术研报
9118 点击    2025-03-25 14:50