AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
何恺明LeCun暴击Transformer命门,9行代码砍掉归一化层!性能反而更强了?

何恺明LeCun暴击Transformer命门,9行代码砍掉归一化层!性能反而更强了?

何恺明LeCun暴击Transformer命门,9行代码砍掉归一化层!性能反而更强了?

Transformer架构迎来历史性突破!刚刚,何恺明LeCun、清华姚班刘壮联手,用9行代码砍掉了Transformer「标配」归一化层,创造了性能不减反增的奇迹。

来自主题: AI技术研报
5778 点击    2025-03-15 14:11
医学可用!推理增强RAG:精准诊断、智能补问、高效解析 | WWW 2025

医学可用!推理增强RAG:精准诊断、智能补问、高效解析 | WWW 2025

医学可用!推理增强RAG:精准诊断、智能补问、高效解析 | WWW 2025

南洋理工大学的研究团队提出了MedRAG模型,通过结合知识图谱推理增强大语言模型(LLM)的诊断能力,显著提升智能健康助手的诊断精度和个性化建议水平。MedRAG在真实临床数据集上表现优于现有模型,准确率提升11.32%,并具备良好的泛化能力,可广泛应用于不同LLM基模型。

来自主题: AI技术研报
4830 点击    2025-03-14 16:19
AI逆袭5G芯片设计,几分钟媲美半个月工作量!研究登Nature子刊

AI逆袭5G芯片设计,几分钟媲美半个月工作量!研究登Nature子刊

AI逆袭5G芯片设计,几分钟媲美半个月工作量!研究登Nature子刊

来自普林斯顿和印度技术学院的学者在《自然通讯》发表论文,他们发现,如果给定设计参数,AI可以在90nm的芯片上设计高性能集成电路。过去这是需要花费数周时间的高技能工作,但如今的AI可以在数小时内完成。

来自主题: AI技术研报
2551 点击    2025-03-14 15:54
CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

在 Sora 引爆世界模型技术革命的当下,3D 场景作为物理世界的数字基座,正成为构建动态可交互 AI 系统的关键基础设施。当前,单张图像生成三维资产的技术突破,已为三维内容生产提供了 "从想象到三维" 的原子能力。

来自主题: AI技术研报
6903 点击    2025-03-14 15:40
MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

尽管 DeepSeek-R1 在单模态推理中取得了显著成功,但已有的多模态尝试(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全复现其核心特征。

来自主题: AI技术研报
7020 点击    2025-03-14 15:32
中国AI Agent行业研究报告(二)

中国AI Agent行业研究报告(二)

中国AI Agent行业研究报告(二)

AI飞速发展的时代,AI Agent在大模型能力升级的推动下实现从任务执行者(copilot)向决策主体的跨越。甲子光年智库全面深入地探讨了AI Agent发展演进、产业价值与商业模式变革、技术路径与能力提升以及面临的挑战等方面,旨在为关注AI Agent领域的投资者、从业者、研究者等提供全面且权威的参考依据。

来自主题: AI技术研报
6781 点击    2025-03-14 10:15
3700次预训练总结超参规律,开源海量实验,告别盲猜

3700次预训练总结超参规律,开源海量实验,告别盲猜

3700次预训练总结超参规律,开源海量实验,告别盲猜

近年来,大语言模型 LLMs 在多种任务上的卓越表现已得到广泛认可。然而,要实现其高效部署,精细的超参数优化至关重要。为了探究最佳超参数的规律,我们开展了大规模的实证研究,通过在不同配置上进行网格搜索,我们揭示了一套通用的最优超参数缩放定律(Optimal Hyperparameter Scaling Law)。

来自主题: AI技术研报
8126 点击    2025-03-13 15:15
阿里妈妈搜索广告2024大模型思考与实践

阿里妈妈搜索广告2024大模型思考与实践

阿里妈妈搜索广告2024大模型思考与实践

随着大模型时代的到来,搜推广模型是否具备新的进化空间?能否像深度学习时期那样迸发出旺盛的迭代生命力?带着这样的期待,阿里妈妈搜索广告在过去两年的持续探索中,逐步厘清了一些关键问题,成功落地了多个优化方向。

来自主题: AI技术研报
8395 点击    2025-03-13 15:14
YOLOe问世,实时观察一切,统一开放物体检测和分割

YOLOe问世,实时观察一切,统一开放物体检测和分割

YOLOe问世,实时观察一切,统一开放物体检测和分割

它能像人眼一样,在文本、视觉输入和无提示范式等不同机制下进行检测和分割。

来自主题: AI技术研报
9178 点击    2025-03-13 14:46
长链推理表象下,大模型精细表征张冠李戴的本质

长链推理表象下,大模型精细表征张冠李戴的本质

长链推理表象下,大模型精细表征张冠李戴的本质

近些年,大模型的发展可谓是繁花似锦、烈火烹油。从 2018 年 OpenAI 公司提出了 GPT-1 开始,到 2022 年底的 GPT-3,再到现在国内外大模型的「百模争锋」,DeepSeek 异军突起,各类大模型应用层出不穷。

来自主题: AI技术研报
8923 点击    2025-03-13 14:41
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。

来自主题: AI技术研报
6453 点击    2025-03-13 14:41
SQL 开发者们,终于有了自己的“Cursor”

SQL 开发者们,终于有了自己的“Cursor”

SQL 开发者们,终于有了自己的“Cursor”

四个月前,我们采访了 Chat2DB 创始人姬朋飞,文章里讲述了他从大厂离职后的创业历程。而最近 Cha2DB 针对 SQL 开发者的普遍痛点,发布了全新的 3.0 版本。

来自主题: AI技术研报
5987 点击    2025-03-13 12:12
首篇AI自写论文通过ICLR 2025同行评审!6.25高分碾压人类,AI独挑科研大梁

首篇AI自写论文通过ICLR 2025同行评审!6.25高分碾压人类,AI独挑科研大梁

首篇AI自写论文通过ICLR 2025同行评审!6.25高分碾压人类,AI独挑科研大梁

Sakana AI刚刚官宣,第二代「AI科学家」独立完成论文,通过了ICLR 2025 Workshop的同行评审。这是首次完全由AI端到端生成的科学论文,获得了学术高度认可。

来自主题: AI技术研报
8068 点击    2025-03-13 10:08
北大研发大规模中国古代可视化数据集

北大研发大规模中国古代可视化数据集

北大研发大规模中国古代可视化数据集

近日,北京大学智能学院袁晓如课题组在中国古籍内容的智能探索方面开展跨学科合作探索取得重要进展。研究通过智能自动分类机制,从大量中国古籍中提取可视化图像,建立大规模中国古代可视化集合

来自主题: AI技术研报
7794 点击    2025-03-13 09:55
10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜一

10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜一

10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜一

DiffRhythm是一款新型AI音乐生成模型,能在10秒内生成长达4分45秒的完整歌曲,包含人声和伴奏。它采用简单高效的全diffusion架构,仅需歌词和风格提示即可创作,还支持本地部署,最低只需8G显存。

来自主题: AI技术研报
3724 点击    2025-03-12 15:59
别再用AI写垃圾代码!4个技巧帮你用AI写出漂亮炫酷的应用

别再用AI写垃圾代码!4个技巧帮你用AI写出漂亮炫酷的应用

别再用AI写垃圾代码!4个技巧帮你用AI写出漂亮炫酷的应用

揭秘如何在 20 分钟内用 AI 创建专业级界面,并分享前四大核心技巧,让你的 AI 生成的应用脱胎换骨。 

来自主题: AI技术研报
4853 点击    2025-03-12 15:30
长文本向量模型在4K Tokens 之外形同盲区?

长文本向量模型在4K Tokens 之外形同盲区?

长文本向量模型在4K Tokens 之外形同盲区?

2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统“大海捞针”(Needle-in-a-Haystack, NIAH)测试依赖关键词匹配的做法,它最大的特点是 通过精心设计问题和关键信息,迫使模型进行深层语义理解和推理,才能从长文本中找到答案。

来自主题: AI技术研报
3716 点击    2025-03-12 15:08
DeepSearch 与 DeepResearch 的设计和实现

DeepSearch 与 DeepResearch 的设计和实现

DeepSearch 与 DeepResearch 的设计和实现

这才 2 月份,深度搜索(Deep Search)就已经隐隐成为 2025 年的新搜索标准了。像谷歌和 OpenAI 这样的巨头,纷纷亮出自己的“Deep Research”产品,努力抢占这波技术浪潮的先机。(我们也很自豪,在同一天也发布了开源的node-deepresearch)。

来自主题: AI技术研报
8187 点击    2025-03-12 14:55
在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

在 ChatGPT 爆火两年多的时间里,大语言模型的上下文窗口长度基准线被拉升,以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。

来自主题: AI技术研报
6969 点击    2025-03-12 14:53
多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools

多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools

多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools

OctoTools通过标准化工具卡和规划器,帮助LLMs高效完成复杂任务,无需额外训练。在16个任务中表现优异,比其他方法平均准确率高出9.3%,尤其在多步推理和工具使用方面优势明显。

来自主题: AI技术研报
5902 点击    2025-03-12 14:47
18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。该数据集包含 200 万高质量的视频编辑对,囊括了 18 种视频编辑任务。

来自主题: AI技术研报
6801 点击    2025-03-12 14:41
填补空白!首个提升大模型工作流编排能力的大规模数据集开源

填补空白!首个提升大模型工作流编排能力的大规模数据集开源

填补空白!首个提升大模型工作流编排能力的大规模数据集开源

Manus 爆火出圈,引发 Agent 热潮!从自行理解任务、拆解步骤到选择工具并执行,这需要 Agent 具备强大的复杂工作流编排和任务处理能力,而工作流也是智能体的核心技术之一。

来自主题: AI技术研报
8327 点击    2025-03-12 14:18