AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头

中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头

中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头

模型蒸馏也有「度」,过度蒸馏,只会导致模型性能下降。最近,来自中科院、北大等多家机构提出全新框架,从两个关键要素去评估和量化蒸馏模型的影响。结果发现,除了豆包、Claude、Gemini之外,大部分开/闭源LLM蒸馏程度过高。

来自主题: AI技术研报
4142 点击    2025-01-21 22:30
首个公开发表的SAR图像目标识别基础模型!国防科大刘永祥&刘丽教授团队提出SARATR-X 1.0

首个公开发表的SAR图像目标识别基础模型!国防科大刘永祥&刘丽教授团队提出SARATR-X 1.0

首个公开发表的SAR图像目标识别基础模型!国防科大刘永祥&刘丽教授团队提出SARATR-X 1.0

在人工智能基础模型技术飞速发展的今天,SAR 图像解译领域技术创新与发展生态亟待突破。为了解决上述技术挑战,国防科技大学电子科学学院刘永祥&刘丽教授团队提出首个公开发表的SAR图像目标识别基础模型SARATR-X 1.0。

来自主题: AI技术研报
4756 点击    2025-01-21 22:21
无直接数据可用,AI怎么学会「干活」?微软团队揭秘AI从语言到行动的进化之路

无直接数据可用,AI怎么学会「干活」?微软团队揭秘AI从语言到行动的进化之路

无直接数据可用,AI怎么学会「干活」?微软团队揭秘AI从语言到行动的进化之路

该技术报告的主要作者 Lu Wang, Fangkai Yang, Chaoyun Zhang, Shilin He, Pu Zhao, Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队,为微软 TaskWeaver, WizardLLM, Windows GUI Agent UFO 的核心开发者。

来自主题: AI技术研报
5706 点击    2025-01-21 22:16
DeepSeek-R1 是怎么训练的|深度拆解

DeepSeek-R1 是怎么训练的|深度拆解

DeepSeek-R1 是怎么训练的|深度拆解

昨天晚上,DeepSeek 又开源了 DeepSeek-R1 模型(后简称 R1),再次炸翻了中美互联网: R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。 R1 上线 API,对用户开放思维链输出 R1 在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版,小模型则超越 OpenAI o1-mini

来自主题: AI技术研报
18628 点击    2025-01-21 13:15
AI模拟社会的“幕后”操控者是谁?

AI模拟社会的“幕后”操控者是谁?

AI模拟社会的“幕后”操控者是谁?

设想一场高度智能的模拟游戏,游戏的角色不再是普通的NPC,而是由大语言模型驱动的智能体。在这其中,悄然生出一个趣事——在人类的设计下,这些新NPC的言行不经意间变得过于啰嗦。

来自主题: AI技术研报
6285 点击    2025-01-21 10:42
理解李继刚提示词的关键绝不在于lisp语言

理解李继刚提示词的关键绝不在于lisp语言

理解李继刚提示词的关键绝不在于lisp语言

李继刚在消失半年后,带着汉语新解重新归来,一出手大家就惊呼李继刚的prompt已经到了next level。但不懂编程的小白又懵逼了!怎么提示词也开始编程了?大语言模型的优势不是通过说话就能达成需求吗?怎么又开始需要编程了?技术在倒退吗?

来自主题: AI技术研报
5879 点击    2025-01-21 10:25
给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

近期关于 scaling law 的讨论甚嚣尘上,很多观点认为 scale law is dead. 然而,我们认为,高质量的 “无监督” 数据才是 scaling law 的关键,尤其是教科书级别的高质量的知识语料。此外,尽管传统的语料快枯竭了,但是互联网上还有海量的视频并没有被利用起来,它们囊括了丰富的多种模态的知识,可以帮助 VLMs 更好好地理解世界。

来自主题: AI技术研报
6077 点击    2025-01-20 19:01
选LLM-Judge评估,用这个可证明的人类对齐评估框架, ICLR2025匿名论文

选LLM-Judge评估,用这个可证明的人类对齐评估框架, ICLR2025匿名论文

选LLM-Judge评估,用这个可证明的人类对齐评估框架, ICLR2025匿名论文

在当今AI技术迅猛发展的背景下,大语言模型(LLM)的评估问题已成为一个不可忽视的挑战。传统的做法是直接采用最强大的模型(如GPT-4)进行评估,这就像让最高法院的大法官直接处理所有交通违章案件一样,既不经济也不一定总能保证公正。

来自主题: AI技术研报
5072 点击    2025-01-20 10:50
AI编程蓝皮书:0基础4小时学会开发

AI编程蓝皮书:0基础4小时学会开发

AI编程蓝皮书:0基础4小时学会开发

大家好,我是AI产品黄叔,目前给两家大厂做AI产品顾问,在使用Cursor和Windsurf(这两个都是AI编程的软件)开发产品后,意识到这才是创造者的天堂,最近举办了三场线下AI编程培训,根据学员的反馈有了这份手册,我会在本手册里持续更新,不断把更多的技巧,思考分享出来,希望能够帮助想要创造的你走进这个天堂!如果你觉得有帮助,欢迎把文末的图片分享给你的朋友:

来自主题: AI技术研报
10718 点击    2025-01-20 09:14
细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

近年来,视觉大模型(Large Vision Language Models, LVLMs)领域经历了迅猛的发展,这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而,随着 LVLMs 复杂性和能力的增长,「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报
5768 点击    2025-01-19 14:51
宇树机器人上演弯道超车(ren),歪果仁质疑是特效

宇树机器人上演弯道超车(ren),歪果仁质疑是特效

宇树机器人上演弯道超车(ren),歪果仁质疑是特效

什么,歪果仁怀疑咱中国的宇树机器人昨天释放的最新视频,是特效?

来自主题: AI技术研报
8919 点击    2025-01-18 15:57
Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品

Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品

Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品

一个新框架,让Qwen版o1成绩暴涨: 在博士级别的科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一! 这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。

来自主题: AI技术研报
6069 点击    2025-01-18 15:00
谢赛宁新作爆火,扩散模型新赛道诞生!测试时计算带飞,性能飙到天花板

谢赛宁新作爆火,扩散模型新赛道诞生!测试时计算带飞,性能飙到天花板

谢赛宁新作爆火,扩散模型新赛道诞生!测试时计算带飞,性能飙到天花板

划时代的突破来了!来自NYU、MIT和谷歌的顶尖研究团队联手,为扩散模型开辟了一个全新的方向——测试时计算Scaling Law。其中,谢赛宁高徒为共同一作。

来自主题: AI技术研报
7426 点击    2025-01-18 14:29
扩散模型低位量化突破!有效扩散量化的极限推向2-4位,W2A4位宽下FID降低58%,超越SOTA方法

扩散模型低位量化突破!有效扩散量化的极限推向2-4位,W2A4位宽下FID降低58%,超越SOTA方法

扩散模型低位量化突破!有效扩散量化的极限推向2-4位,W2A4位宽下FID降低58%,超越SOTA方法

降低扩散模型生成的计算成本,性能还保持在高水平! 最新研究提出一种用于极低位差分量化的混合精度量化方法。

来自主题: AI技术研报
5953 点击    2025-01-18 14:18
视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

模型安全和可靠性、系统整合和互操作性、用户交互和认证…… 当“多模态”“跨模态”成为不可阻挡的AI趋势时,多模态场景下的安全挑战尤其应当引发产学研各界的注意。

来自主题: AI技术研报
7501 点击    2025-01-18 10:48
阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

随着当前大语言模型的广泛应用和推理时扩展的新范式的崛起,如何实现高效的大规模推理成为了一个巨大挑战。特别是在语言模型的推理阶段,传统注意力机制中的键值缓存(KV Cache)会随着批处理大小和序列长度线性增长,俨然成为制约大语言模型规模化应用和推理时扩展的「内存杀手」。

来自主题: AI技术研报
6463 点击    2025-01-18 09:57
生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。

来自主题: AI技术研报
7135 点击    2025-01-17 11:14
大模型量化训练极限在哪?腾讯混元提出低比特浮点数训练Scaling Laws

大模型量化训练极限在哪?腾讯混元提出低比特浮点数训练Scaling Laws

大模型量化训练极限在哪?腾讯混元提出低比特浮点数训练Scaling Laws

大模型低精度训练和推理是大模型领域中的重要研究方向,旨在通过降低模型精度来减少计算和存储成本,同时保持模型的性能。因为在大模型研发成本降低上的巨大价值而受到行业广泛关注 。

来自主题: AI技术研报
3805 点击    2025-01-17 11:07
495篇参考文献!北交大清华等高校发布多语言大模型综述

495篇参考文献!北交大清华等高校发布多语言大模型综述

495篇参考文献!北交大清华等高校发布多语言大模型综述

虽然大模型取得突破性进展,但其在多语言场景下仍具有局限性,存在很大的改善空间。

来自主题: AI技术研报
4986 点击    2025-01-17 10:58
微软最新复杂推理:基于过程奖励的LE-MCTS集成新方法

微软最新复杂推理:基于过程奖励的LE-MCTS集成新方法

微软最新复杂推理:基于过程奖励的LE-MCTS集成新方法

在人工智能快速发展的今天,大型语言模型(LLM)在各类任务中展现出惊人的能力。然而,当面对需要复杂推理的任务时,即使是最先进的开源模型也往往难以保持稳定的表现。现有的模型集成方法,无论是在词元层面还是输出层面的集成,都未能有效解决这一挑战。

来自主题: AI技术研报
5038 点击    2025-01-17 10:36
Keras之父创业押注「程序合成」,副业竟能解锁终极AGI!o3预示新拐点

Keras之父创业押注「程序合成」,副业竟能解锁终极AGI!o3预示新拐点

Keras之父创业押注「程序合成」,副业竟能解锁终极AGI!o3预示新拐点

Keras之父官宣创业了!全新成立的实验室Ndea,押注了一条通往AGI的新路线——深度学习+程序合成。值得一提的是,这条新路,曾是Keras之父在谷歌搞的业余项目。

来自主题: AI技术研报
6977 点击    2025-01-16 16:08
LoRA最新最权威的一切都在这了,2025综述

LoRA最新最权威的一切都在这了,2025综述

LoRA最新最权威的一切都在这了,2025综述

在人工智能快速发展的今天,大型基础模型(如GPT、BERT等)已经成为AI应用的核心基石。然而,这些动辄数十亿甚至数万亿参数的模型给开发者带来了巨大的计算资源压力。传统的全参数微调方法不仅需要大量的计算资源,还面临着训练不稳定、容易过拟合等问题。

来自主题: AI技术研报
6116 点击    2025-01-16 10:48
Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重

Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重

Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重

Sakana AI发布了Transformer²新方法,通过奇异值微调和权重自适应策略,提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA;即便是从未见过的任务,比如MATH、HumanEval和ARC-Challenge等,性能也都取得了提升。

来自主题: AI技术研报
8269 点击    2025-01-16 10:23
单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作

单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作

单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作

Stability AI推出3D重建方法:2D图像秒变3D,还可以交互式实时编辑。新方法的原理、代码、权重、数据全公开,而且许可证宽松,可以商用。新方法采用点扩展模型生成稀疏点云,之后通过Transformer主干网络,同时处理生成的点云数据和输入图像生成网格。以后,人人都能轻松上手3D模型设计。

来自主题: AI技术研报
10224 点击    2025-01-16 10:13
一句话让Agent自主干活,清华复旦斯坦福等开源的智能体开发框架抢先了OpenAI

一句话让Agent自主干活,清华复旦斯坦福等开源的智能体开发框架抢先了OpenAI

一句话让Agent自主干活,清华复旦斯坦福等开源的智能体开发框架抢先了OpenAI

近期,OpenAI CEO Sam Altman 宣布,2025 年将推出名为 “Operator” 的虚拟员工计划,AI 代理将能够自主执行任务,如写代码、预订旅行等,成为企业中的 “数字同事”。

来自主题: AI技术研报
6754 点击    2025-01-16 10:12