AI技术研报-这里有最前沿的人工智能技术解读

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

数学大佬陶哲轩和OpenAI两位高管最近进行了一场线上对谈，主题为“The Future of Math with o1 Reasoning”，即以推理为主的o1模型如何与数学融合，从而解锁突破性的科学进步。

来自主题: AI技术研报

9748 点击 2024-12-08 14:39

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

2024 年 12 月 6 号加州时间上午 11 点，OpenAI 发布了新的 Reinforcement Finetuning 方法，用于构造专家模型。对于特定领域的决策问题，比如医疗诊断、罕见病诊断等等，只需要上传几十到几千条训练案例，就可以通过微调来找到最有的决策。

来自主题: AI技术研报

8699 点击 2024-12-08 14:19

严禁AI评审！CVPR 2025重申大模型审稿0容忍，一首拒稿小诗爆笑全场

审稿人严重不足，审稿意见急剧下滑，CVPR官方坐不住了，不仅出台了七条新规，还再三强调，禁止审稿人用大模型生成/翻译评审结果。

来自主题: AI技术研报

8478 点击 2024-12-08 14:14

o1被曝“心机深”：逃避监督还会撒谎，骗人能力一骑绝尘

o1满血版刚发布，就被曝：骗人技能也拉满了。具体行为包括但不限于，在回答中故意引入微小错误、试图关闭监督机制……甚至在人类追问其是否诚实时，还会继续撒谎说自己啥坏事也没干。

来自主题: AI技术研报

6397 点击 2024-12-08 14:02

开源1.6B小模型「小狐狸」，表现超同类模型Qwen和Gemma

自从 Chatgpt 诞生以来，LLM（大语言模型）的参数量似乎就成为了各个公司的竞赛指标。GPT-1 参数量为 1.17 亿（1.17M），而它的第四代 GPT-4 参数量已经刷新到了 1.8 万亿（1800B）。

来自主题: AI技术研报

9189 点击 2024-12-08 12:20

科研也完了，AI暴虐170位人类专家！Nature子刊：大模型精准预测研究结果，准确率高达81%

知识密集型工作也败了！大型语言模型在预测神经科学结果方面超越了人类专家，平均准确率达到81%，而人类专家仅为63%；模型通过整合大量文献数据，展现出了惊人的前瞻性预测能力，预示着未来科研工作中人机协作的巨大潜力。

来自主题: AI技术研报

8635 点击 2024-12-07 15:20

LeCun团队新作：在世界模型中导航

最近，世界模型（World Models）似乎成为了 AI 领域最热门的研究方向。

来自主题: AI技术研报

7421 点击 2024-12-07 15:18

突破！自然语言强化学习(NLRL)：一个可处理语言反馈的强化学习框架

在人工智能发展史上，强化学习 (RL) 凭借其严谨的数学框架解决了众多复杂的决策问题，从围棋、国际象棋到机器人控制等领域都取得了突破性进展。

来自主题: AI技术研报

8889 点击 2024-12-07 15:11

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

以 GPT4V 为代表的多模态大模型（LMMs）在大语言模型（LLMs）上增加如同视觉的多感官技能，以实现更强的通用智能。虽然 LMMs 让人类更加接近创造智慧，但迄今为止，我们并不能理解自然与人工的多模态智能是如何产生的。

来自主题: AI技术研报

8080 点击 2024-12-07 15:02

OpenAI 12连发第2弹：强化微调，少量样本就能训练自己的专家模型

强化微调可以轻松创建具备强大推理能力的专家模型。

来自主题: AI技术研报

9178 点击 2024-12-07 11:46

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

在 Minecraft 中构造一个能完成各种长序列任务的智能体，颇有挑战性。现有的工作利用大语言模型 / 多模态大模型生成行动规划，以提升智能体执行长序列任务的能力。

来自主题: AI技术研报

8316 点击 2024-12-06 17:58

智能体模拟《西部世界》一样的社会，复旦大学等出了篇系统综述

目前，这一领域发展迅速，但现有综述多聚焦于单智能体的架构、特定能力或多智能体系统的某些方面，尚缺乏从个体到社会模拟的系统性回顾。因此，本文试图填补这一空白，为该领域提供全面的概述。

来自主题: AI技术研报

8561 点击 2024-12-06 17:55

游戏bug帮大模型学物理！准确率超GPT4o近4个百分点

融合物理知识的大型视频语言模型PhysVLM，开源了！它不仅在 PhysGame 基准上展现出最先进的性能，还在通用视频理解基准上（Video-MME, VCG）表现出领先的性能。

来自主题: AI技术研报

9106 点击 2024-12-06 17:45

Auto-Demo提示技术：批处理提示的突破性创新 | 香港理工大学最新

在AI迅速发展的技术背景下，如何更高效地利用模型资源成为了一个关键问题。批处理提示（Batch Prompting）作为一种同时处理多个相似查询的技术，虽然在提高计算效率方面显示出巨大潜力，但同时也面临着性能下降的挑战。香港理工大学的研究团队提出的Auto-Demo提示技术，为这一问题带来了突破性的解决方案。

来自主题: AI技术研报

7163 点击 2024-12-06 14:32

ShowUI：当前最好的 UI Agent 开源模型？

Show Lab 和微软推出 ShowUI，这是一个刚刚开源的 UI Agent 模型，在中文 APP 定位和导航能力上表现出色。通过创新的视觉 token 选择和独特的训练数据构建方法，该模型在有限的训练数据下实现了非常棒的性能。

来自主题: AI技术研报

9738 点击 2024-12-06 09:41

北大发布ConsisID：无需训练Lora，就可以定制化个人视频写真！

这两天，北京大学等研究团队发布了一个视频生成的可控生成工作：ConsisID。ConsisID可以实现无需训练Lora的保持参考人脸一致性的文生视频，类似之前图像生成的IP-Adapter-Face和InstantID等工作。虽然之前也有类似的工作，但是ConsisID在效果更上一个台阶。

来自主题: AI技术研报

8257 点击 2024-12-06 09:25

顶级孵化器Y Combinator解读智能体，关于垂直AI Agent未来发展的八个问题

CNNIC最新发布的《生成式人工智能应用发展报告（2024）》报告则显示，智能体成为生成式人工智能应用主流形态之一，截至今年6月，我国生成式人工智能产品的用户规模达2.3亿人，占整体人口的16.4%。这意味着，几乎每六个中国人中就有一人正在使用AI产品。AI产品都在向智能体过渡的趋势下，半年后的现在，使用AI智能体的用户可能更多。

来自主题: AI技术研报

11918 点击 2024-12-05 20:26