AI技术研报-这里有最前沿的人工智能技术解读

a16z：从Prompt到Product，AI驱动的网页应用搭建工具正在兴起

从本质上讲，LLM会根据用户从UI的输入生成代码示例。然后，生成的代码会通过中间件逻辑进行处理，根据逻辑跟踪文件、代码更改和第三方API调用。

来自主题: AI技术研报

7657 点击 2025-03-02 14:16

微软原WizardLM团队：代码大模型WarriorCoder，性能新SOTA

近年来，大型语言模型（LLMs）在代码相关的任务上展现了惊人的表现，各种代码大模型层出不穷。这些成功的案例表明，在大规模代码数据上进行预训练可以显著提升模型的核心编程能力。

来自主题: AI技术研报

8507 点击 2025-03-02 14:13

DeepSeek R1也会大脑过载？过度思考后性能下降，少琢磨让计算成本直降43％

原来，大型推理模型（Large Reasoning Model，LRM）像人一样，在「用脑过度」也会崩溃，进而行动能力下降。

来自主题: AI技术研报

6761 点击 2025-03-02 14:04

MIT三人团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

Transformer 很成功，更一般而言，我们甚至可以将（仅编码器）Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布（iid）采用假设构建的，因此很自然可以尝试将 Transformer 用于它们。

来自主题: AI技术研报

6032 点击 2025-03-02 13:22

Claude 3.7 sonnet系统提示词的哲学

这份提示词有很多哲学性思考，很多表达让我看到背后的设计者把claude当成一个人去设计。　我猜，应该是Amanda Askell（Anthropic负责alignment和character design，是学哲学的一位女生，也是我的榜样) 主要设计的。　

来自主题: AI技术研报

7004 点击 2025-03-02 10:22

探索跳跃式思维链：DeepSeek创造力垫底，Qwen系列接近人类顶尖水平

在大语言模型 (LLM) 的研究中，与以 Chain-of-Thought 为代表的逻辑思维能力相比，LLM 中同等重要的 Leap-of-Thought 能力，也称为创造力，目前的讨论和分析仍然较少。这可能会严重阻碍 LLM 在创造力上的发展。造成这种困局的一个主要原因是，面对「创造力」，我们很难构建一个合适且自动化的评估流程。

来自主题: AI技术研报

6017 点击 2025-03-01 22:13

模型越复杂，离真理越远？我们还需要奥卡姆剃刀吗？

当百亿千亿参数的大模型霸占着科技头条，“若无必要，勿增实体”这把古老“剃刀”是否依旧闪耀？复杂性与简洁性真的是对立的吗？本文将回溯历史长河，探寻一个古老哲学原则与现代科技之间的微妙关联。在这个过程中，我们或许能够发现，复杂与简洁之间隐藏着怎样的辩证关系。

来自主题: AI技术研报

8088 点击 2025-03-01 15:28

万轮实测：GPT-4.5 不如 GPT-4

我先给大家道个歉，上一篇讲的不太对：《GPT-4.5 一手实测：垃圾》，是我喷得保守了，觉得 GPT-4.5 只是贵&慢，但模型总归是素质在线。没想到，经过实际数万轮实测：GPT-4.5 不如 GPT-4

来自主题: AI技术研报

7185 点击 2025-03-01 15:00

一句话让DeepSeek思考停不下来，北大团队：这是针对AI的DDoS攻击

只要一句话，就能让DeepSeek陷入无限思考，根本停不下来？

来自主题: AI技术研报

9120 点击 2025-03-01 14:19

蒸馏任何深度，仅用少量无标签数据就能实现单目深度估计新SOTA

单目深度估计新成果来了！西湖大学AGI实验室等提出了一种创新性的蒸馏算法，成功整合了多个开源单目深度估计模型的优势。在仅使用2万张无标签数据的情况下，该方法显著提升了估计精度，并刷新了单目深度估计的最新SOTA性能。

来自主题: AI技术研报

7889 点击 2025-02-28 15:40

机器人诞生「运动自我意识」，哥大华人登Nature子刊：照镜子学会自我建模

近日，来自哥大的研究人员开发出了一种新AI系统，让机器人通过普通摄像头和深度神经网络实现自我建模、运动规划和自我修复，突破了传统机器人依赖工程师调整的局限，使机器人能像人类一样自主学习和适应环境变化，为具身智能发展带来新范式。

来自主题: AI技术研报

8107 点击 2025-02-28 15:32

超越DeepSeek推理，效率更高！斯坦福马腾宇新作：有限数据，无限迭代

STP（自博弈定理证明器）让模型扮演「猜想者」和「证明者」，互相提供训练信号，在有限的数据下实现了无限自我改进，在Lean和Isabelle验证器上的表现显著优于现有方法，证明成功率翻倍，并在多个基准测试中达到最先进的性能。

来自主题: AI技术研报

3834 点击 2025-02-28 15:21

DeepSeek第五天开源猛料，3FS并行文件系统榨干SSD！6.6 TiB/s吞吐量堪比光速

DeepSeek最后一天，送上了3FS文件并行系统，以及数据处理框架Smallpond。五天开源连更，终于画上了完美的句号。

来自主题: AI技术研报

2774 点击 2025-02-28 15:16

无需训练让扩散模型提速2倍，上交大提出Token级缓存方案｜ICLR‘25

Diffusion Transformer模型模型通过token粒度的缓存方法，实现了图像和视频生成模型上无需训练的两倍以上的加速。

来自主题: AI技术研报

6045 点击 2025-02-28 15:06

谷歌发布BIG-Bench超难基准：DeepSeek-R1得分6.8，只有o3-mini超过10分

随着 AI 能力的提升，一个常见的话题便是基准不够用了——一个新出现的基准用不了多久时间就会饱和，比如 Replit CEO Amjad Masad 就预计 2023 年 10 月提出的编程基准 SWE-bench 将在 2027 年饱和。

来自主题: AI技术研报

3860 点击 2025-02-28 14:48

微软首个多模态Phi-4问世，56亿参数秒杀GPT-4o！LoRA华人大佬带队

Phi-4系列模型上新了！56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体，读图推理性能碾压GPT-4o；另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM，支持128K token上下文。

来自主题: AI技术研报

5010 点击 2025-02-28 14:11

ICLR 2025｜浙大、千问发布预训练数据管理器DataMan，53页细节满满

在 Scaling Law 背景下，预训练的数据选择变得越来越重要。然而现有的方法依赖于有限的启发式和人类的直觉，缺乏全面和明确的指导方针。在此背景下，该研究提出了一个数据管理器 DataMan，其可以从 14 个质量评估维度对 15 个常见应用领域的预训练数据进行全面质量评分和领域识别。

来自主题: AI技术研报

8212 点击 2025-02-28 14:04

一文详解：DeepSeek 第五天开源的 3FS 文件系统

DeepSeek开源周的最后一天，迎来的是支撑其V3/R1模型全生命周期数据访问需求的核心基础设施 — Fire-Flyer File System(3FS) 和构建于其上的Smallpond数据处理框架。

来自主题: AI技术研报

6414 点击 2025-02-28 11:33

任意Prompt就能给大模型实时排名，竞技场新玩法，还能自动找最佳AI来作答

单个模型的优缺点也能分析

来自主题: AI技术研报

8064 点击 2025-02-28 10:52

自动提示词优化系统综述，APO被AWS定义为5个部分 | 最新

本文是对亚马逊AWS研究团队最新发表的APO（自动提示词优化）技术综述的深度解读。该研究由Kiran Ramnath、Kang Zhou等21位来自AWS的资深研究者共同完成，团队成员来自不同技术背景，涵盖了机器学习、自然语言处理、系统优化等多个专业领域。

来自主题: AI技术研报

5204 点击 2025-02-28 10:11

扣子平台智能体与 AI 应用数据分析报告

这是智能体平台扣子官方整理的AI应用的相关数据，该报告可以让大家更好的了解用户在智能体方面的创建情况，同时也可以了解智能体平台本身的用户情况，更清楚的分析智能体商业的前景。

来自主题: AI技术研报

7996 点击 2025-02-28 10:04

微软Phi-4家族新增两位成员，5.6B多模态单任务超GPT-4o，3.8B小模型媲美千问7B

动辄百亿、千亿参数的大模型正在一路狂奔，但「小而美」的模型也在闪闪发光。

来自主题: AI技术研报

9434 点击 2025-02-27 16:51

英伟达下场，首次优化DeepSeek-R1！B200性能狂飙25倍，碾压H100

最近，英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1，实现了推理速度提升25倍，和每token成本降低20倍的惊人成果。同时，DeepSeek连续开源多个英伟达GPU优化项目，共同探索模型性能极限。

来自主题: AI技术研报

9344 点击 2025-02-27 16:33

DeepSeek-R1自写CUDA内核跑分屠榜！斯坦福学霸狂飙GPU编程自动化挑战人类

斯坦福和普林斯顿研究者发现，DeepSeek-R1生成的自定义CUDA内核，完爆了o1和Claude 3.5 Sonnet，拿下总排名第一。虽然目前只能在不到20%任务上超越PyTorch Eager基线，但GPU编程加速自动化的按钮，已经被按下！

来自主题: AI技术研报

9628 点击 2025-02-27 16:17

加速度计成本暴降1/400！哈工大首次突破精度、量程瓶颈｜AAAI 2025 Oral

哈尔滨工业大学团队提出HEROS-GAN技术，通过生成式深度学习将低成本加速度计信号转化为高精度信号，突破其精度与量程瓶颈。该技术利用最优传输监督和拉普拉斯能量调制，使0.5美元的传感器达到200美元高端设备的性能，为工业、医疗等领域应用带来变革。

来自主题: AI技术研报

8284 点击 2025-02-27 15:21

AI引用正确率仅有4.2- 18.5%，怎么破？「Think&Cite」让AI精准归因生成可信内容

AI引用正确率仅有4.2- 18.5%，用Deep Research就提高了引用正确率吗？似乎用Think&Cite框架的SG-MCTS和过程奖励机制PRM可以解决引用问题，生成可信内容。

来自主题: AI技术研报

9369 点击 2025-02-27 15:13

不要自回归！扩散模型作者创业，首个商业级扩散LLM来了，编程秒出结果

当前的 AI 领域，可以说 Transformer 与扩散模型是最热门的模型架构。也因此，有不少研究团队都在尝试将这两种架构融合到一起，以两者之长探索新一代的模型范式，比如我们之前报道过的 LLaDA。不过，之前这些成果都还只是研究探索，并未真正实现大规模应用。

来自主题: AI技术研报

9368 点击 2025-02-27 14:40

一文详解：DeepSeek 第四天开源的模型设计套件

第四天，DeepSee发布包括三个主要项目： DualPipe- 一种用于 V3/R1 训练的双向流水线并行算法，实现计算和通信完全重叠； EPLB(Expert Parallelism Load Balancer) - 专为 V3/R1 设计的专家并行负载均衡器； Profile-data- 分析 V3/R1 中计算与通信重叠的性能数据集。

来自主题: AI技术研报

8282 点击 2025-02-27 12:16

DeepSeek今日连开3源！针对优化的并行策略，梁文峰本人参与开发

按时整活！DeepSeek开源周第四天，直接痛快「1日3连发」，且全都围绕一个主题：优化并行策略。

来自主题: AI技术研报

7863 点击 2025-02-27 11:28

Web Agent技术揭秘：如何让DeepSeek接管与控制你的浏览器？

Web Agent是这样一种特殊的智能体：它借助AI自动控制你的浏览器，并完成你“交代”的任务。比如帮你挑选一部最新的iPhone或者到旅行网站预订机票。这样的智能数字助手，无论是对生活还是工作，未来无疑都具有重大的意义。当前有大量的研究正针对这种Agent展开，本文就来聊聊其最新进展及DeepSeek的应用。

来自主题: AI技术研报

6820 点击 2025-02-27 10:51