AI技术研报-这里有最前沿的人工智能技术解读

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

我们即将介绍的 AgileGen— 一种基于人机协作的敏捷生成式软件开发框架。

来自主题: AI技术研报

6592 点击 2024-11-19 20:28

LLM为何频频翻车算术题？最新研究追踪单个神经元，「大脑短路」才是根源

大模型在数学问题上的表现不佳，原因在于采取启发式算法进行数学运算的，通过定位到多层感知机（MLP）中的单个神经元，可以对进行数学运算的具体过程进行解释。

来自主题: AI技术研报

8445 点击 2024-11-19 19:53

多模态竞技场对标90B Llama 3.2！Pixtral 12B技术报告全公开

以开源极客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。

来自主题: AI技术研报

7376 点击 2024-11-19 17:15

扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶Atari 100K

DIAMOND是一种新型的强化学习智能体，在一个由扩散模型构建的虚拟世界中进行训练，能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中，DIAMOND的平均得分超越了人类玩家，证明了其在模拟复杂环境中处理细节和进行决策的能力。

来自主题: AI技术研报

7109 点击 2024-11-18 15:24

Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题

最近，大家都被这条消息吓到了：传说Grok 3已经成功证明出黎曼猜想？！虽然这是在玩梗，但还是让我们来仔细剖析下，目前的AI距离千禧年数学难题，究竟还有多远。

来自主题: AI技术研报

6998 点击 2024-11-18 15:20

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

自我纠错（Self Correction）能力，传统上被视为人类特有的特征，正越来越多地在人工智能领域，尤其是大型语言模型（LLMs）中得到广泛应用，最近爆火的OpenAI o1模型[1]和Reflection 70B模型[2]都采取了自我纠正的方法。

来自主题: AI技术研报

7053 点击 2024-11-18 14:54

清华 iAgents丨每个人都有一个智能体当助手，全公司能一起摸鱼吗？

大模型发展了这么久，AI 智能体们早就开始整顿职场了。

来自主题: AI技术研报

6411 点击 2024-11-18 09:21

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

如今，机器人学习最大的瓶颈是缺乏数据。与图片和文字相比，机器人的学习数据非常稀少。目前机器人学科的主流方向是通过扩大真实世界中的数据收集来尝试实现通用具身智能，但是和其他的基础模型，比如初版的 StableDiffusion 相比，即使是 pi 的数据都会少七八个数量级。

来自主题: AI技术研报

9130 点击 2024-11-18 09:14

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

在现代 AI 模型的快速迭代中，如何在保持模型精度的同时提升计算效率成为关键课题。尤其在大规模 AI 推理中，非结构化稀疏矩阵的计算效率低下成为难以突破的瓶颈。面对这一挑战，我们自主研发了 CROSS—— 一种创新的端到端稀疏编译优化方案，为 AI 推理带来细粒度稀疏计算的加速效果。

来自主题: AI技术研报

7506 点击 2024-11-18 09:01

Scaling Law或将终结？哈佛MIT预警：低精度量化已无路可走，重磅研究掀翻AI圈

哈佛斯坦福MIT等机构首次提出「精度感知」scaling law，揭示了精度、参数规模、数据量之间的统一关系。数据量增加，模型对量化精度要求随之提高，这预示着AI领域低精度加速的时代即将结束！

来自主题: AI技术研报

8305 点击 2024-11-17 14:26

视频生成无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

卡内基梅隆大学提出了视频生成模型加速方法Run-Length Tokenization（RLT），被NeurIPS 2024选为Spotlight论文。在精度几乎没有损失的前提下，RLT可以让模型训练和推理速度双双提升。

来自主题: AI技术研报

7941 点击 2024-11-17 14:10

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

4-bit量化，能让现有反学习/机器遗忘技术失灵！

来自主题: AI技术研报

7807 点击 2024-11-16 16:02

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

真・覆盖当前 AI 领域 90% 重要知识。

来自主题: AI技术研报

9594 点击 2024-11-16 15:56

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

最近，Nature上的一项研究，全面驳斥了LLM具有类人推理能力的说法。研究者设定的「人类亲吻难题」把7个大模型彻底绕晕。最终研究者表示，与其说LLM是科学理论，不如说它们更接近工具，比如广义导数。

来自主题: AI技术研报

9768 点击 2024-11-16 15:52

过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

通过过程奖励模型（PRM）在每一步提供反馈，并使用过程优势验证器（PAV）来预测进展，从而优化基础策略，该方法在测试时搜索和在线强化学习中显示出比传统方法更高的准确性和计算效率，显著提升了解决复杂问题的能力。

来自主题: AI技术研报

7224 点击 2024-11-16 15:41

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

本文介绍了来自北京大学王选计算机研究所的王勇涛团队的最新研究成果 VL-SAM。针对开放场景，该篇工作提出了一个基于注意力图提示的免训练开放式目标检测和分割框架 VL-SAM，在无需训练的情况下，取得了良好的开放式 (Open-ended) 目标检测和实例分割结果，论文已被 NeurIPS 2024 录用。

来自主题: AI技术研报

4757 点击 2024-11-16 15:21

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

近日，中科大王杰教授团队 (MIRA Lab) 针对离线强化学习数据集存在多类数据损坏这一复杂的实际问题，提出了一种鲁棒的变分贝叶斯推断方法，有效地提升了智能决策模型的鲁棒性，为机器人控制、自动驾驶等领域的鲁棒学习奠定了重要基础。论文发表在 CCF-A 类人工智能顶级会议 Neural Information Processing Systems（NeurIPS 2024）。

来自主题: AI技术研报

4930 点击 2024-11-16 15:13

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

利用概念激活向量破解大模型的安全对齐，揭示LLM重要安全风险漏洞。

来自主题: AI技术研报

4405 点击 2024-11-16 15:03

使用LLM结合金融数据和新闻文章预测股票价格

预测金融市场和股票价格变动需分析公司表现、历史价格、行业事件及人类因素（如社交媒体和新闻报道）。

来自主题: AI技术研报

8138 点击 2024-11-16 14:38

集成500+多模态现实任务！全新MEGA-Bench评测套件：CoT对开源模型反而有害？

MEGA-Bench是一个包含500多个真实世界任务的多模态评测套件，为全面评估AI模型提供了高效工具。研究人员发现，尽管顶级AI模型在多个任务中表现出色，但在复杂推理和跨模态理解方面仍有提升空间。

来自主题: AI技术研报

8253 点击 2024-11-15 15:37

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

这篇文章获选 Neurips 2024 Spotlight，作者均来自于伊利诺伊大学香槟分校计算机系。第一作者是博士生林啸，指导老师是童行行教授。所在的 IDEA 实验室的研究兴趣涵盖图机器学习、可信机器学习、LLM 优化以及数据挖掘等方面。

来自主题: AI技术研报

6303 点击 2024-11-15 15:34

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

Sora 的发布让广大研究者及开发者深刻认识到基于 Transformer 架构扩散模型的巨大潜力。作为这一类的代表性工作，DiT 模型抛弃了传统的 U-Net 扩散架构，转而使用直筒型去噪模型。鉴于直筒型 DiT 在隐空间生成任务上效果出众，后续的一些工作如 PixArt、SD3 等等也都不约而同地使用了直筒型架构。

来自主题: AI技术研报

4570 点击 2024-11-15 15:09