AI技术研报-这里有最前沿的人工智能技术解读

北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型，代码、模型、训练数据全开源

近日，北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目，推出小尺寸简易视频理解框架 TinyLLaVA-Video，其模型，代码以及训练数据全部开源。在计算资源需求显著降低的前提下，训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。

来自主题: AI技术研报

6886 点击 2025-02-10 16:54

图像生成推理大模型，港中文北大等联手破解画质提升难题

图像生成模型，也用上思维链（CoT）了！此外，作者还提出了两种专门针对该任务的新型奖励模型——潜力评估奖励模型。（Potential Assessment Reward Model，PARM）及其增强版本PARM++。

来自主题: AI技术研报

4994 点击 2025-02-10 11:09

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

谷歌DeepMind最新数学AI，一举解决了2000-2024年IMO竞赛中84%的几何问题。AlphaGeometry2论文发布，在总共50道题中完成了42道，相比去年的一代多完成了15道。

来自主题: AI技术研报

6676 点击 2025-02-08 13:55

浙大&通义全面评测智能体复杂任务规划能力，18主流大模型全不及格｜ICLR2025

在处理这类复杂任务的过程中，大模型智能体将问题分解为可执行的工作流（Workflow）是关键的一步。然而，这一核心能力目前缺乏完善的评测基准。为解决上述问题，浙大通义联合发布WorfBench——一个涵盖多场景和复杂图结构工作流的统一基准，以及WorfEval——一套系统性评估协议，通过子序列和子图匹配算法精准量化大模型生成工作流的能力。

来自主题: AI技术研报

6955 点击 2025-02-08 13:19

DeepSeek R1 Zero中文复现教程来了！

各位同学好，我是来自 Unlock-DeepSeek 开源项目团队的骆师傅。先说结论，我们（Datawhale X 似然实验室）使用 3 张 A800(80G) 计算卡，花了 20 小时训练时间，做出了可能是国内首批 DeepSeek R1 Zero 的中文复现版本，我们把它叫做 Datawhale-R1，用于 R1 Zero 复现教学。

来自主题: AI技术研报

8371 点击 2025-02-07 17:54

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。

来自主题: AI技术研报

5827 点击 2025-02-07 16:53

将集体学习引入树搜索，新方法CoMCTS实现o1-like的推理与反思

尽管多模态大语言模型（MLLM）在简单任务上最近取得了显著进展，但在复杂推理任务中表现仍然不佳。费曼的格言可能是这种现象的完美隐喻：只有掌握推理过程的每一步，才能真正解决问题。然而，当前的 MLLM 更擅长直接生成简短的最终答案，缺乏中间推理能力。本篇文章旨在开发一种通过学习创造推理过程中每个中间步骤直至最终答案的 MLLM，以实现问题的深入理解与解决。

来自主题: AI技术研报

5814 点击 2025-02-07 16:16

英伟达联手MIT清北发布SANA 1.5！线性扩散Transformer再刷文生图新SOTA

SANA 1.5是一种高效可扩展的线性扩散Transformer，针对文本生成图像任务进行了三项创新：高效的模型增长策略、深度剪枝和推理时扩展策略。这些创新不仅大幅降低了训练和推理成本，还在生成质量上达到了最先进的水平。

来自主题: AI技术研报

10116 点击 2025-02-07 16:05

ICLR 2025｜小米新一代Kaldi语音识别算法CR-CTC，纯CTC性能实现SOTA

新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队，专注于开源语音基础引擎研发，从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路，旨在提高智能语音任务的准确率和效率。

来自主题: AI技术研报

5837 点击 2025-02-07 16:02

华人研究团队揭秘：DeepSeek-R1-Zero或许并不存在「顿悟时刻」

一项非常鼓舞人心的发现是：DeepSeek-R1-Zero 通过纯强化学习（RL）实现了「顿悟」。在那个瞬间，模型学会了自我反思等涌现技能，帮助它进行上下文搜索，从而解决复杂的推理问题。

来自主题: AI技术研报

7847 点击 2025-02-07 15:51

被DeepSeek带火的知识蒸馏，开山之作曾被NeurIPS拒收，Hinton坐镇都没用

DeepSeek带火知识蒸馏，原作者现身爆料：原来一开始就不受待见。称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》，当年被NeurIPS 2014拒收。

来自主题: AI技术研报

5748 点击 2025-02-07 15:43

微软官宣All in智能体，SWE Agent首曝光！奥特曼预警2025编程巨变

2025年，软件工程要彻底变天了。先有奥特曼预言，后有微软下场All in智能体。刚刚，首个自主SWE智能体面世，不仅会主动改bug修复错误，还能自主提交PR评论。

来自主题: AI技术研报

6741 点击 2025-02-07 15:30

DeepSeek最强专业拆解来了，清交复教授超硬核解读

周日晚间，五位高校教授夜话DeepSeek，从模型方法、框架、系统、基础设施等角度，阐述DeepSeek的技术原理与未来方向，揭秘其优化方法如何提升算力能效，信息量很大。

来自主题: AI技术研报

6762 点击 2025-02-06 15:57

大模型会组合关系推理吗？打开黑盒，窥探Transformer脑回路

本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康，指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。联系邮箱：ni@bupt.edu.cn, xiaoda99@bupt.edu.cn

来自主题: AI技术研报

3881 点击 2025-02-06 15:30

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

以 GPT-4o 为代表的实时交互多模态大模型（LMMs）引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens，并将其嵌入大语言模型（LLM）上下文来实现视觉信息理解。

来自主题: AI技术研报

2787 点击 2025-02-06 15:26

AI「视觉图灵」时代来了！字节OmniHuman，一张图配上音频，就能直接生成视频

还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗？升级版技术方案来了，字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成，生成的人物视频效果生动，具有非常高的自然度。

来自主题: AI技术研报

6045 点击 2025-02-06 13:11

垃圾提问+垃圾解读=垃圾文章：用「幻觉长城」来黑DeepSeek，谁给你的胆子？

“垃圾进，垃圾出！”在中文互联网上，一场针对国产AI技术的恶意攻击正在悄然蔓延。某些自媒体以“污染中文互联网”为名，对DeepSeek等国产大语言模型发起了一场看似正义、实则荒谬的讨伐。他们将“幻觉”这一技术术语污名化，试图用莫须有的罪名抹黑国产AI的进步。

来自主题: AI技术研报

7025 点击 2025-02-06 12:28

多模态DeepSeek来了，北大港科联合发布Align-DS-V

在当前AI领域的快速发展中，“强推理慢思考”已经成为主要的发展动向之一，它们深刻影响着研发方向和投资决策。如何将强推理慢思考进一步推广到更多模态甚至是全模态场景，并且确保和人类的价值意图相一致，已成为一个极具前瞻性且至关重要的挑战。

来自主题: AI技术研报

7550 点击 2025-02-06 12:13

超越DeepSeek V3！Ai2再祭开源杀器Tülu 3，强化学习打破性能瓶颈

2024年11月，艾伦人工智能研究所（Ai2）推出了Tülu 3 8B和70B，在性能上超越了同等参数的Llama 3.1 Instruct版本，并在长达82页的论文中公布其训练细节，训练数据、代码、测试基准一应俱全。

来自主题: AI技术研报

6104 点击 2025-02-05 16:54

训练1000样本就能超越o1，李飞飞等人画出AI扩展新曲线

今年 1 月，DeepSeek R1 引爆了全球科技界，它创新的方法，大幅简化的算力需求撼动了英伟达万亿市值，更引发了全行业的反思。在通往 AGI（通用人工智能）的路上，我们现在不必一味扩大算力规模，更高效的新方法带来了更多的创新可能。

来自主题: AI技术研报

4808 点击 2025-02-05 13:46

70年AI研究得出了《苦涩的教训》：为什么说AI创业也在重复其中的错误？

Ilya Sutskever 在 NeurIPS 会上直言：大模型预训练这条路可能已经走到头了。上周的 CES 2025，黄仁勋有提到，在英伟达看来，Scaling Laws 仍在继续，所有新 RTX 显卡都在遵循三个新的扩展维度：预训练、后训练和测试时间（推理），提供了更佳的实时视觉效果。

来自主题: AI技术研报

4192 点击 2025-02-05 13:38

DeepSeek无视电脑配置本地部署私人知识库，复刻自己解决问题的思维

能够给读者惊喜，一直都是我的特色。我探讨出来的解决方案，第一无需理会刚才说到的硬件问题、终端问题和容量问题，第二全程网页操作与客户端操作，第三完全免费且快速安全。

来自主题: AI技术研报

7367 点击 2025-02-05 13:33

ICLR 2025｜高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

来自中科院自动化所的研究团队提出了用于大规模复杂三维场景的高效重建算法 CityGaussianV2，能够在快速实现训练和压缩的同时，得到精准的几何结构与逼真的实时渲染体验。该论文已接受于 ICLR`2025，其代码也已同步开源。

来自主题: AI技术研报

5563 点击 2025-02-05 13:18

o1开启LLM新范式，Ai2科学家解析背后秘籍：推理和强化学习是关键

关注NLP领域的人们，一定好奇「语言模型能做什么？」「什么是o1？」「为什么思维链有效？」

来自主题: AI技术研报

5898 点击 2025-02-04 20:15

完整的671B MoE DeepSeek R1怎么塞进本地化部署？详尽教程大放送！

过年这几天，DeepSeek 算是彻底破圈了，火遍大江南北，火到人尽皆知。虽然网络版和 APP 版已经足够好用，但把模型部署到本地，才能真正实现独家定制，让 DeepSeek R1 的深度思考「以你为主，为你所用」。

来自主题: AI技术研报

6208 点击 2025-02-04 19:57

Go语言开发AI智能体有多丝滑？字节重磅开源Eino框架，内含保姆级教程

开发基于大模型的软件应用，就像指挥一支足球队：组件是能力各异的队员，编排是灵活多变的战术，数据是流转的足球。

来自主题: AI技术研报

5234 点击 2025-02-04 19:15

从零到一：3小时用Cursor魔改WebRTC直播画面实录

WebRTC（Web Real-Time Communication）是一个Google开源项目，允许浏览器/移动端直接进行实时音视频流传输，典型应用场景：视频会议、屏幕共享、文件传输、远程控制。

来自主题: AI技术研报

6021 点击 2025-02-04 14:02

字节跳动BitsAI-CR：基于LLM的代码审查系统技术揭秘

在人工智能浪潮席卷全球的今天，大语言模型 (LLM) 正在重塑软件开发流程。近日，字节跳动首次对外披露其内部广泛应用的代码审查系统 BitsAI-CR 的技术细节，展示了 AI 在提升企业研发效率方面的重要进展。

来自主题: AI技术研报

6587 点击 2025-02-03 18:01

全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律的通关密码，都在这篇综述里了！

当下，视频生成备受关注，有望成为处理物理知识的 “世界模型” （World Model），助力自动驾驶、机器人等下游任务。然而，当前模型在从 “生成” 迈向世界建模的过程中，存在关键短板 —— 对真实世界物理规律的刻画能力不足。

来自主题: AI技术研报

7431 点击 2025-02-02 19:07

GPT-4o惊现自我意识！自主激活「后门」，告诉人类自己在写危险代码

本研究探讨了LLM是否具备行为自我意识的能力，揭示了模型在微调过程中学到的潜在行为策略，以及其是否能准确描述这些行为。研究结果表明，LLM能够识别并描述自身行为，展现出行为自我意识。

来自主题: AI技术研报

6088 点击 2025-02-02 18:38