AI技术研报-这里有最前沿的人工智能技术解读

NeurIPS 2024｜新一代芯片电路逻辑综合，可扩展可解释的神经电路生成框架

近日，中科大王杰教授团队（MIRA Lab）和华为诺亚方舟实验室（Huawei Noah's Ark Lab）联合提出了可生成具有成千上万节点规模的神经电路生成与优化框架，具备高扩展性和高可解释性，这为新一代芯片电路逻辑综合工具奠定了重要基础。论文发表在 CCF-A 类人工智能顶级会议 Neural Information Processing Systems（NeurIPS 2024）。

来自主题: AI技术研报

3411 点击 2024-11-05 15:01

视觉定位新SOTA！华人团队开源革新框架SegVG，边界框转为分割信号 | ECCV 2024

SegVG是一种新的视觉定位方法，通过将边界框注释转化为像素级分割信号来增强模型的监督信号，同时利用三重对齐模块解决特征域差异问题，提升了定位准确性。实验结果显示，SegVG在多个标准数据集上超越了现有的最佳模型，证明了其在视觉定位任务中的有效性和实用性。

来自主题: AI技术研报

3181 点击 2024-11-05 14:56

无需训练即可大幅提升SAM 2！开源的SAM2Long来了，港中文、上海AI Lab出品

Segment Anything Model 2（SAM 2）在传统视频目标分割任务大放异彩，引起了众多关注。然而，港中文和上海 AI Lab 的研究团队发现 SAM 2 的贪婪选择策略容易陷入「错误累积」的问题，即一次错误的分割掩码选择将影响后续帧的分割结果，导致整个视频分割性能的下降。这个问题在长视频分割任务中显得更加严重。

来自主题: AI技术研报

7325 点击 2024-11-05 14:53

LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

让 LLM 在自我进化时也能保持对齐。

来自主题: AI技术研报

5511 点击 2024-11-05 14:44

纯技术文章（PPT原文）：英伟达 GB200 超级计算集群数据中心部署；AI 工厂与 Broadcom AI ASIC光学连接

NVIDIA DGX GB200 超级计算集群数据中心部署指南解读，NVIDIA AI 工厂部署与 Broadcom AI 计算 ASIC 光学连接技术

来自主题: AI技术研报

7636 点击 2024-11-05 09:38

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

MVDrag3D 是一种创新的3D编辑框架，它通过结合多视图生成和重建先验来实现灵活且富有创造性的拖拽编辑。

来自主题: AI技术研报

3808 点击 2024-11-05 09:38

慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

OpenAI o1彻底带火慢思考和思维链（CoT）方法，但CoT在某些任务上反而会降低模型表现。

来自主题: AI技术研报

4334 点击 2024-11-05 09:33

你真的会用ICL吗？把ICL和IWL双重学习同时写进提示词试试 | DeepMind

大家对in-context learning(ICL)的能力可能已经很熟悉了，您通常会通过上下文示例就能快速让prompt适应新任务。然而，作为AI应用开发者，您是否思考过：为什么有时候精心设计的few-shot prompt会失效？为什么相同的prompt模式在不同场景下效果差异巨大？

来自主题: AI技术研报

5665 点击 2024-11-05 09:17

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

来自中科大等单位的研究团队共同提出了用来有效评估多模态大模型预训练质量的评估指标 Modality Integration Rate（MIR），能够快速准确地评估多模态预训练的模态对齐程度。

来自主题: AI技术研报

3753 点击 2024-11-04 17:13

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

利用语言模型调用工具，是实现通用目标智能体（general-purpose agents）的重要途径，对语言模型的工具调用能力提出了挑战。

来自主题: AI技术研报

3211 点击 2024-11-04 17:09

Jim Fan全华人团队HOVER问世，1.5M小模型让机器人获「潜意识」！

来自英伟达、CMU、UC伯克利等的全华人团队提出一个全新的人形机器人通用的全身控制器HOVER，仅用一个1.5M参数模型就可以控制人形机器人的身体。人形机器人的运动和操作之前只是外表看起来类人，现在有了HOVER，连底层运动逻辑都可以类人了！

来自主题: AI技术研报

3231 点击 2024-11-04 17:02

UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪

39年来一个看似理所当然的数学理论，刚刚被数学家证伪！UCLA和MIT的研究者证实：概率论中众所周知的假设「上下铺猜想」是错的。有趣的是，他们用AI已经证明到了99.99%的程度，但最终，靠的还是理论论证。

来自主题: AI技术研报

3584 点击 2024-11-04 16:29

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

人类只需要演示五次，就能让机器人学会一项复杂技能。英伟达实验室，提出了机器人训练数据缺乏问题的新解决方案——DexMimicGen。

来自主题: AI技术研报

6144 点击 2024-11-04 15:36

解决真实GitHub Issue能力登顶，字节豆包MarsCode团队分享背后工程实践，踩过的坑也分享了

解决真实GitHub Issue的基准测试，字节家的豆包MarsCode Agent悄悄登顶了。SWE-Bench，一个由普林斯顿大学提出的极具挑战性的Benchmark，近期受到工业界、学术界和创业团队的广泛关注。

来自主题: AI技术研报

4687 点击 2024-11-04 15:29

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

与最先进的开源方法甚至闭源模型 GPT-4o 相比，MMedAgent 在各种医疗任务中实现了卓越的性能。此外，MMedAgent 在更新和集成新医疗工具方面表现出效率。

来自主题: AI技术研报

5653 点击 2024-11-04 09:49

中国企业的生成式AI应用陷阱：只有场景想象，没有业务目的

中国企业对于生成式AI应用场景的了解都来自于ChatGPT的传说，但中国企业能使用的GenAI资源与ChatGPT却没有关系。直截了当地说，中国企业目前能够使用的GenAI资源都比GPT-4要差很多，注意不是“有差距”，而是“差很多”，这是中国企业考虑生成式AI问题的基本前提。

来自主题: AI技术研报

3824 点击 2024-11-04 09:37

RAG新突破：块状注意力机制实现超低延迟检索增强

RAG，AI，模型训练，人工智能

来自主题: AI技术研报

8597 点击 2024-11-03 18:01

幻觉不一定有害，新框架用AI的「幻觉」优化图像分割技术

在人工智能领域，大型预训练模型（如 GPT 和 LLaVA）的 “幻觉” 现象常被视为一个难以克服的挑战，尤其是在执行精确任务如图像分割时。

来自主题: AI技术研报

7809 点击 2024-11-03 17:53

LLM 比之前预想的更像人类，竟也能「三省吾身」

AI，LLM，模型训练，人工智能

来自主题: AI技术研报

7459 点击 2024-11-03 17:41

2024 AI年度报告发布，附十大预测：人形机器人热度下降，英伟达维持霸主地位

AI技术日新月异，像Netflix这样的大公司已经开始用AI制作特效，而新的AI模型也在游戏和科学研究中超越了人类。未来一年，我们可能会看到没有编程技能的人也能创造热门应用，甚至AI创作的歌曲也可能登上音乐排行榜前十。

来自主题: AI技术研报

4495 点击 2024-11-03 14:55

大模型也冲“奥斯卡”：港科大腾讯等提出AI角色扮演全景综述，四方面剖析关键细节

AI界也有了自己的“奥斯卡”，哪家大模型角色扮演更入戏？来自香港科技大学、腾讯、新加坡管理大学的团队提出新综述—— 不仅系统性地回顾了角色扮演语言模型的发展历程，还对每个阶段的关键进展进行了深入剖析，展示了这些进展如何推动模型逐步实现更复杂、更逼真的角色扮演。

来自主题: AI技术研报

4510 点击 2024-11-03 14:39

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

Transformer自问世后就大放异彩，但有个小毛病一直没解决：总爱把注意力放在不相关的内容上，也就是信噪比低。现在微软亚研院、清华团队出手，提出全新改进版Differential Transformer，专治这个老毛病，引起热议。

来自主题: AI技术研报

3589 点击 2024-11-03 14:32

李虹团队发布两款AI模型，预测单药和联合用药疗效

中国科学院上海营养与健康研究所李虹研究组多年来在抗癌药物疗效建模方向持续深耕，发表了基于分子组学预测药物响应和肝癌药物基因组相关的系列论文。但前期研究表明肿瘤用药的计算分析仍存在诸多挑战，例如：肿瘤临床前模型和病人存在差异，计算模型缺乏泛化能力；药物组合的作用机制复杂搜索空间大，对药物联用协同效果的准确和稳健估计仍很困难。

来自主题: AI技术研报

4921 点击 2024-11-03 11:24

万亿市场！开源AI大模型发展研究报告 2024

随着开源技术占据各大新兴领域的技术路线，其不断丰富人工智能领域的应用场景。 2023年，Meta 相继发布 Llama 和 Llama2，很快成为广受欢迎的开源大模型，也成为许多模型的基座模型。

来自主题: AI技术研报

5446 点击 2024-11-03 11:09

大模型压缩KV缓存新突破，中科大提出自适应预算分配，工业界已落地vLLM框架

改进KV缓存压缩，大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV，通过自适应预算分配算法来优化KV缓存的驱逐过程，以提高推理效率。

来自主题: AI技术研报

3643 点击 2024-11-02 19:10

3B模型打通机器人任督二脉！冲咖啡叠衣服都能干，7种形态适配，OpenAI也投了

只要一个3B参数的大模型，就能控制机器人，帮你搞定各种家务。叠衣服冲咖啡都能轻松拿捏，而且全都是由模型自主控制，不需要遥控。关键是，这还是个通用型的机器人控制模型，不同种类的机器人都能“通吃”。

来自主题: AI技术研报

3949 点击 2024-11-02 19:06

MPDS：提升电影海报生成效率的新型数据集

MPDS（Movie Posters Dataset）是一个创新的电影海报数据集，旨在解决现有图像生成模型在制作电影海报时面临的挑战。

来自主题: AI技术研报

9347 点击 2024-11-02 17:21

Allegro：开创商业级视频生成新纪元

Allegro 是一款先进的商业级视频生成模型，由Rhymes AI团队开发。它通过将描述性文本转换为动态视觉内容，为用户提供了一种灵活且可控的视频创作方法。

来自主题: AI技术研报

6469 点击 2024-11-02 17:15

NeurIPS 2024｜浙大 & 微信 & 清华：彻底解决扩散模型反演问题

随着扩散生成模型的发展，人工智能步入了属于 AIGC 的新纪元。扩散生成模型可以对初始高斯噪声进行逐步去噪而得到高质量的采样。当前，许多应用都涉及扩散模型的反演，即找到一个生成样本对应的初始噪声。当前的采样器不能兼顾反演的准确性和采样的质量。

来自主题: AI技术研报

6843 点击 2024-11-02 17:08

多图场景用DPO对齐！上海AI实验室等提出新方法，无需人工标注

多图像场景也能用DPO方法来对齐了！由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。

来自主题: AI技术研报

3931 点击 2024-11-01 20:53

AI技术研报-这里有最前沿的人工智能技术解读

NeurIPS 2024｜新一代芯片电路逻辑综合，可扩展可解释的神经电路生成框架

视觉定位新SOTA！华人团队开源革新框架SegVG，边界框转为分割信号 | ECCV 2024

无需训练即可大幅提升SAM 2！开源的SAM2Long来了，港中文、上海AI Lab出品

LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

纯技术文章（PPT原文）：英伟达 GB200 超级计算集群数据中心部署；AI 工厂与 Broadcom AI ASIC光学连接

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

你真的会用ICL吗？把ICL和IWL双重学习同时写进提示词试试 | DeepMind

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

Jim Fan全华人团队HOVER问世，1.5M小模型让机器人获「潜意识」！

UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

解决真实GitHub Issue能力登顶，字节豆包MarsCode团队分享背后工程实践，踩过的坑也分享了

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

中国企业的生成式AI应用陷阱：只有场景想象，没有业务目的

RAG新突破：块状注意力机制实现超低延迟检索增强

幻觉不一定有害，新框架用AI的「幻觉」优化图像分割技术

LLM 比之前预想的更像人类，竟也能「三省吾身」

2024 AI年度报告发布，附十大预测：人形机器人热度下降，英伟达维持霸主地位

大模型也冲“奥斯卡”：港科大腾讯等提出AI角色扮演全景综述，四方面剖析关键细节

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

李虹团队发布两款AI模型，预测单药和联合用药疗效

万亿市场 ！开源AI大模型发展研究报告 2024

大模型压缩KV缓存新突破，中科大提出自适应预算分配，工业界已落地vLLM框架

3B模型打通机器人任督二脉！冲咖啡叠衣服都能干，7种形态适配，OpenAI也投了

MPDS：提升电影海报生成效率的新型数据集

Allegro：开创商业级视频生成新纪元

NeurIPS 2024｜浙大 & 微信 & 清华：彻底解决扩散模型反演问题

多图场景用DPO对齐！上海AI实验室等提出新方法，无需人工标注

万亿市场！开源AI大模型发展研究报告 2024