AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
SemiAnalysis大研报:Tariff → AI

SemiAnalysis大研报:Tariff → AI

SemiAnalysis大研报:Tariff → AI

报告深入分析了特朗普总统于2025年4月2日宣布的“解放日”关税措施对美国人工智能(AI)基础设施建设、相关供应链以及全球贸易格局的潜在影响。

来自主题: AI技术研报
5932 点击    2025-04-11 14:44
RAG技术演进的四大核心命题【阿里官方对RAG的理解认知】

RAG技术演进的四大核心命题【阿里官方对RAG的理解认知】

RAG技术演进的四大核心命题【阿里官方对RAG的理解认知】

随着技术的深入应用,如何高效利用大模型技术优化用户体验,同时应对其带来的诸多挑战?本文将从RAG的发展趋势、技术挑战、核心举措以及未来展望四个维度总结我们应对挑战的新的思路和方法。

来自主题: AI技术研报
8861 点击    2025-04-11 13:55
DeepSeek+开源n8n:24h推特(X)热点监控Workflow太绝了!【附赠:完整工作流文件】

DeepSeek+开源n8n:24h推特(X)热点监控Workflow太绝了!【附赠:完整工作流文件】

DeepSeek+开源n8n:24h推特(X)热点监控Workflow太绝了!【附赠:完整工作流文件】

前两天给大家分享了一个我认为最强的开源AI Workflow平台:n8n。经过这几天的研究,我用n8n实现了一套超实用的X(原Twitter)热点监控workflow(工作流)。它由两个workflow(工作流)组成

来自主题: AI技术研报
8115 点击    2025-04-11 10:27
7B小模型写好学术论文,新框架告别AI引用幻觉,实测100%学生认可引用质量

7B小模型写好学术论文,新框架告别AI引用幻觉,实测100%学生认可引用质量

7B小模型写好学术论文,新框架告别AI引用幻觉,实测100%学生认可引用质量

学术写作通常需要花费大量精力查询文献引用,而以ChatGPT、GPT-4等为代表的通用大语言模型(LLM)虽然能够生成流畅文本,但经常出现“引用幻觉”(Citation Hallucination),即模型凭空捏造文献引用。这种现象严重影响了学术论文的可信度与专业性。

来自主题: AI技术研报
6894 点击    2025-04-11 10:20
CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别

CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别

CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别

在现实世界中,如何让智能体理解并挖掘 3D 场景中可交互的部位(Affordance)对于机器人操作与人机交互至关重要。所谓 3D Affordance Learning,就是希望模型能够根据视觉和语言线索,自动推理出物体可供哪些操作、以及可交互区域的空间位置,从而为机器人或人工智能系统提供对物体潜在操作方式的理解。

来自主题: AI技术研报
4682 点击    2025-04-11 09:55
预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化

预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化

预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化

港中文、清华等高校提出SICOG框架,通过预训练、推理优化和后训练协同,引入自生成数据闭环和结构化感知推理机制,实现模型自我进化,为大模型发展提供新思路。

来自主题: AI技术研报
7936 点击    2025-04-11 09:36
闭环端到端精度暴涨19.61%!华科&小米汽车联手打造自动驾驶框架ORION,代码将开源

闭环端到端精度暴涨19.61%!华科&小米汽车联手打造自动驾驶框架ORION,代码将开源

闭环端到端精度暴涨19.61%!华科&小米汽车联手打造自动驾驶框架ORION,代码将开源

近年来,端到端(End-to-End,E2E)自动驾驶技术不断进步,但在复杂的闭环交互环境中,由于其因果推理能力有限,仍然难以做出准确决策。虽然视觉 - 语言大模型(Vision-Language Model,VLM)凭借其卓越的理解和推理能力,为端到端自动驾驶带来了新的希望,但现有方法在 VLM 的语义推理空间和纯数值轨迹的行动空间之间仍然存在巨大鸿沟。

来自主题: AI技术研报
6704 点击    2025-04-11 09:28
5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持

5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持

5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持

谷歌Deep Research重大升级,搭载全球顶尖Gemini 2.5 Pro模型。5分钟生成46页学术论文、复杂报告转为10分钟播客。性能超OpenAI DR 40%,价格仅为其1/10。

来自主题: AI技术研报
5863 点击    2025-04-10 12:26
UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!

UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!

UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!

OpenAI o1/o3-mini级别的代码推理模型竟被抢先开源!UC伯克利和Together AI联合推出的DeepCoder-14B-Preview,仅14B参数就能媲美o3-mini,开源代码、数据集一应俱全,免费使用。

来自主题: AI技术研报
6951 点击    2025-04-10 11:52
字节最新人像视频生成模型DreamActor-M1,推特关注超百万!即梦AI即将上线

字节最新人像视频生成模型DreamActor-M1,推特关注超百万!即梦AI即将上线

字节最新人像视频生成模型DreamActor-M1,推特关注超百万!即梦AI即将上线

自数字人技术Omnihuman-1引起行业关注之后,字节智能创作团队再放大招。全新DreamActor-M1横空出世,一张照片一段视频,就能生成电影级视频,精准迁移表情动作,还支持多种画风。

来自主题: AI技术研报
8912 点击    2025-04-10 11:12
芯片设计效率提升2.5倍,中科大华为诺亚联合,用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

芯片设计效率提升2.5倍,中科大华为诺亚联合,用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

芯片设计效率提升2.5倍,中科大华为诺亚联合,用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

芯片设计是现代科技的核心,逻辑优化(Logic Optimization, LO)作为芯片设计流程中的关键环节,其效率直接影响着芯片设计的整体性能。

来自主题: AI技术研报
2638 点击    2025-04-10 11:03
孪生世界动态仿真新突破!北大发布RainyGS:降雨/洪涝/风速精准可控

孪生世界动态仿真新突破!北大发布RainyGS:降雨/洪涝/风速精准可控

孪生世界动态仿真新突破!北大发布RainyGS:降雨/洪涝/风速精准可控

北京大学陈宝权教授团队提出RainyGS技术,通过结合物理模拟和3D高斯泼溅渲染框架,实现了真实场景中动态雨效的高质量仿真与呈现,真正实现「从真实到真实」,或者「以仿真乱真」,即Real2Sim2Real !相比现有的视频编辑工具(如 Runway),其物理真实性获得保证。

来自主题: AI技术研报
6905 点击    2025-04-10 10:51
首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。

来自主题: AI技术研报
6931 点击    2025-04-10 10:20
jina-reranker-m0 全新多模态多语言重排器

jina-reranker-m0 全新多模态多语言重排器

jina-reranker-m0 全新多模态多语言重排器

今天,我们正式发布jina-reranker-m0。这是一款多模态、多语言重排器(reranker),其核心能力在于 对包含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景。

来自主题: AI技术研报
6202 点击    2025-04-09 17:03
论文党狂喜!alphaXiv推出Deep Research一秒搜遍arXiv,研究效率直接爆表

论文党狂喜!alphaXiv推出Deep Research一秒搜遍arXiv,研究效率直接爆表

论文党狂喜!alphaXiv推出Deep Research一秒搜遍arXiv,研究效率直接爆表

刚刚,alphaXiv 推出了新功能「Deep Research for arXiv」,该功能可协助研究人员更高效地在 arXiv 平台上进行学术论文的检索与阅读,显著提升文献检索及研究效率。

来自主题: AI技术研报
9056 点击    2025-04-09 16:07
南洋理工&普渡大学提出CFG-Zero*:在Flow Matching模型中实现更稳健的无分类器引导方法

南洋理工&普渡大学提出CFG-Zero*:在Flow Matching模型中实现更稳健的无分类器引导方法

南洋理工&普渡大学提出CFG-Zero*:在Flow Matching模型中实现更稳健的无分类器引导方法

本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式,支持所有 Flow Matching 的生成模型。目前已被集成至 Diffusers 与 ComfyUI。

来自主题: AI技术研报
7783 点击    2025-04-09 15:40
反英伟达联盟的里程碑,UA Link 1.0:正式发布

反英伟达联盟的里程碑,UA Link 1.0:正式发布

反英伟达联盟的里程碑,UA Link 1.0:正式发布

UALink 1.0发布:支持1024 GPU,200GT/s带宽,开放标准挑战NVLink。

来自主题: AI技术研报
6224 点击    2025-04-09 14:55
深度|具身合成数据的路线之争,谁将率先走出困境?

深度|具身合成数据的路线之争,谁将率先走出困境?

深度|具身合成数据的路线之争,谁将率先走出困境?

本文主要描述了具身合成数据两条主要技术路线之争:“视频合成+3D重建”or “端到端3D生成”。参考自动驾驶的成功经验,前者模态转换链路过长导致误差累积,'直接合成3D数据'理论上有信息效率优势,但需要克服“常识欠缺”等挑战。

来自主题: AI技术研报
9258 点击    2025-04-09 10:07
Llama 4五大疑点曝光,逐层扒皮!全球AI进步停滞,NYU教授称Scaling彻底结束

Llama 4五大疑点曝光,逐层扒皮!全球AI进步停滞,NYU教授称Scaling彻底结束

Llama 4五大疑点曝光,逐层扒皮!全球AI进步停滞,NYU教授称Scaling彻底结束

刚刚,一位AI公司CEO细细扒皮了关于Llama 4的五大疑点。甚至有圈内人表示,Llama 4证明Scaling已经结束了,LLM并不能可靠推理。但更可怕的事,就是全球的AI进步恐将彻底停滞。

来自主题: AI技术研报
6930 点击    2025-04-09 09:49
迈向机器人领域ImageNet,大牛Pieter Abbeel领衔国内外高校共建RoboVerse,统一仿真平台、数据集和基准

迈向机器人领域ImageNet,大牛Pieter Abbeel领衔国内外高校共建RoboVerse,统一仿真平台、数据集和基准

迈向机器人领域ImageNet,大牛Pieter Abbeel领衔国内外高校共建RoboVerse,统一仿真平台、数据集和基准

大规模数据集和标准化评估基准显著促进了自然语言处理和计算机视觉领域的发展。然而,机器人领域在如何构建大规模数据集并建立可靠的评估体系方面仍面临巨大挑战。

来自主题: AI技术研报
6907 点击    2025-04-09 08:59