AI技术研报-这里有最前沿的人工智能技术解读

打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型输出都低于标称长度

很多大模型的官方参数都声称自己可以输出长达32K tokens的内容，但这数字实际上是存在水分的？？

来自主题: AI技术研报

9276 点击 2025-01-16 10:30

Transformer作者初创重磅发布Transformer²！AI模型活了，动态调整自己权重

Sakana AI发布了Transformer²新方法，通过奇异值微调和权重自适应策略，提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA；即便是从未见过的任务，比如MATH、HumanEval和ARC-Challenge等，性能也都取得了提升。

来自主题: AI技术研报

8367 点击 2025-01-16 10:23

单图秒变3D对象，还可交互实时编辑！Stability AI中科大校友新作

Stability AI推出3D重建方法：2D图像秒变3D，还可以交互式实时编辑。新方法的原理、代码、权重、数据全公开，而且许可证宽松，可以商用。新方法采用点扩展模型生成稀疏点云，之后通过Transformer主干网络，同时处理生成的点云数据和输入图像生成网格。以后，人人都能轻松上手3D模型设计。

来自主题: AI技术研报

10308 点击 2025-01-16 10:13

一句话让Agent自主干活，清华复旦斯坦福等开源的智能体开发框架抢先了OpenAI

近期，OpenAI CEO Sam Altman 宣布，2025 年将推出名为 “Operator” 的虚拟员工计划，AI 代理将能够自主执行任务，如写代码、预订旅行等，成为企业中的 “数字同事”。

来自主题: AI技术研报

6859 点击 2025-01-16 10:12

近8年后，谷歌Transformer继任者「Titans」来了，上下文记忆瓶颈被打破

正如论文一作所说，「新架构 Titans 既比 Transformer 和现代线性 RNN 更有效，也比 GPT-4 等超大型模型性能更强。」

来自主题: AI技术研报

6214 点击 2025-01-16 09:54

Transformer²要做「活」的AI模型，动态调整权重，像章鱼一样适应环境

自适应 LLM 反映了神经科学和计算生物学中一个公认的原理，即大脑根据当前任务激活特定区域，并动态重组其功能网络以响应不断变化的任务需求。

来自主题: AI技术研报

5050 点击 2025-01-15 18:30

MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

开源模型上下文窗口卷到超长，达400万token！刚刚，“大模型六小强”之一MiniMax开源最新模型—— MiniMax-01系列，包含两个模型：基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。

来自主题: AI技术研报

7094 点击 2025-01-15 15:10

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

随着语言大模型的成功，视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速，但在长上下文场景下表现却不尽如人意，这一问题严重制约了多模态模型在实际应用中的潜力。

来自主题: AI技术研报

7150 点击 2025-01-15 14:23

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

「2025 年，我们可能会看到第一批 AI Agent 加入劳动力大军，并对公司的生产力产生实质性的影响。」——OpenAI CEO Sam Altman

来自主题: AI技术研报

7460 点击 2025-01-15 14:06

同时优化几种语气的prompt怎么办？MOPO：实现多领域情感文本生成的提示优化（附提示词）

在人工智能快速发展的今天，提示工程（Prompt Engineering）已经成为AI应用开发中不可或缺的环节。然而，当我们需要生成适应不同场景的情感文本时，传统的单一目标提示优化方法往往显得力不从心。

来自主题: AI技术研报

7468 点击 2025-01-15 09:47

余弦相似度可能没用？对于某些线性模型，相似度甚至不唯一

在机器学习和数据科学领域，余弦相似度长期以来一直是衡量高维对象之间语义相似度的首选指标。余弦相似度已广泛应用于从推荐系统到自然语言处理的各种应用中。它的流行源于人们相信它捕获了嵌入向量之间的方向对齐，提供了比简单点积更有意义的相似性度量。

来自主题: AI技术研报

7342 点击 2025-01-14 14:47

思维链？思维树？华为诺亚：现在到了思维森林时刻！

OpenAI 接连发布 o1 和 o3 模型，大模型的高阶推理能力正在迎来爆发式增强。在预训练 Scaling law “撞墙” 的背景下，探寻新的 Scaling law 成为业界关注的热点。高阶推理能力有望开启新的 Scaling law，为大模型的发展注入新的活力。

来自主题: AI技术研报

6646 点击 2025-01-14 14:43

同时提升摄像机控制效率、视频质量，可控视频生成架构AC3D来了

AC3D 从基本原理出发，分析了摄像机运动在视频生成中的特点，并通过以下三方面改进了视频生成的效果和效率：

来自主题: AI技术研报

6399 点击 2025-01-14 14:36

微软华人团队最新研究：从LLM到LAM，让大模型真正具有「行动力」！

AI大模型正从仅会聊天的LLM进化为能够执行任务的大型行动模型LAM。它不仅能理解用户的指令，还能在软件环境中自主执行任务。

来自主题: AI技术研报

6795 点击 2025-01-14 14:31

谷歌新架构一战成名，打破Transformer记忆瓶颈，姚班校友钟沛林新作

想挑战 Transformer 的新架构有很多，来自谷歌的“正统”继承者 Titan 架构更受关注。

来自主题: AI技术研报

7285 点击 2025-01-14 14:24

让「幻觉」无处遁形！谷歌DeepMind全新基准，三代Gemini同台霸榜

谷歌推出的FACTS Grounding基准测试，能评估AI模型在特定上下文中生成准确文本的能力，有助于提升模型的可靠性；通过去除不满足用户需求的回复，确保了评分的准确性和模型排名的公正性。

来自主题: AI技术研报

8595 点击 2025-01-13 13:47

会用AI才能多发论文，LLM助力科研效率提升！新研究登Nature子刊

Nature子刊近日发布了一项研究，针对学术写作中大模型的使用。他们发现，那些了解LLM以及大模型相关技术的受访者有更多的发表文章数量。

来自主题: AI技术研报

7365 点击 2025-01-13 13:42

破解联邦学习中的辛普森悖论，浙大提出反事实学习新框架FedCFA

本地训练的客户模型忽视了全局数据中明显的更广泛的模式，聚合的全局模型可能无法准确反映所有客户端的数据分布，甚至可能出现「辛普森悖论」—— 多端各自数据分布趋势相近，但与多端全局数据分布趋势相悖。

来自主题: AI技术研报

7291 点击 2025-01-13 13:36

显卡在偷懒？阿里大模型创作平台 MuseAI 极速模型切换技术提升 AI 创作效率

MuseAI 是由阿里集团爱橙科技研发的面向阿里内部的 AIGC 创作工作台，同时通过与阿里云旗下魔搭社区合作共建的形式，将主体能力通过魔搭社区的 AIGC 专区对公众开放。

来自主题: AI技术研报

5262 点击 2025-01-13 11:15

重磅突破：首个自适应LLM的智能提示优化系统MAPS，让用例生成效率提升超30%

在软件开发过程中，测试用例的生成一直是一个既重要又耗时的环节。近年来，大型语言模型（LLM）在这一领域展现出了巨大的潜力。然而，实践表明，即使是同一个提示词（Prompt），在不同的LLM上也会产生截然不同的效果。

来自主题: AI技术研报

4477 点击 2025-01-13 10:54

GAN归来：模型大幅简化，训练更稳定，逆袭扩散模型，AI社区疯传

GANs are so back!?

来自主题: AI技术研报

9470 点击 2025-01-13 10:34

顶级AI认知能力输给老年人，大模型集体翻车

随着 AI 技术的突飞猛进，其进步几乎每天都在刷新人们的认知，很多人都在猜想，AI 是否会在不久的将来取代人类医生？

来自主题: AI技术研报

7106 点击 2025-01-13 09:53

ChatGPT，取代工作or生产力神器？清华校友联手发文：AI时代怎么选工作

清华校友团队最新成果发现：写作、咨询、编程等相关自由职业最终可能被AI取代，而且更关键的是，AI能力一旦超过某个「拐点」，对就业市场的冲击将一发不可收拾。

来自主题: AI技术研报

7235 点击 2025-01-12 17:04

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

基于深度神经网络对人脸图像进行编辑和篡改，深度伪造的发展为人们的生活带来了便利，但对其错误的应用也同时危害着人们的隐私和信息安全。

来自主题: AI技术研报

7062 点击 2025-01-12 16:38

GAN已死？GAN万岁！布朗康奈尔新作爆火，一夜碾压扩散模型

GAN已死？不，它卷土重来了！布朗大学和康奈尔大学的研究者刚刚提出了R3GAN，充分利用现代架构设计，彻底摒弃临时技巧，一半参数就能碾压扩散模型。网友惊呼：游戏规则要改变了！

来自主题: AI技术研报

5613 点击 2025-01-12 11:04

突破瓶颈！北航ETH等首次将扩散模型完全量化至1bit，28倍存储节省+52.7倍效率提升

将扩散模型量化到1比特极限，又有新SOTA了！来自北航、ETH等机构的研究人员提出了一种名为BiDM的新方法，首次将扩散模型（DMs）的权重和激活完全二值化。

来自主题: AI技术研报

7497 点击 2025-01-12 10:42

如何高效桥接视觉和语言，字节&中大提出全新多模态大模型连接器ParGo

在多模态大语言模型（MLLMs）的发展中，视觉 - 语言连接器作为将视觉特征映射到 LLM 语言空间的关键组件，起到了桥梁作用。

来自主题: AI技术研报

6816 点击 2025-01-12 10:22

OpenAI工程师亲自修订：用ChatGPT实时语音API构建应用

OpenAI Realtime API 的「说明书」。

来自主题: AI技术研报

1790 点击 2025-01-11 14:29

一行代码Post-Train任意长序列！360智脑开源360-LLaMA-Factory

大模型长序列的处理能力已越来越重要，像复杂长文本任务、多帧视频理解任务、以及 OpenAI 近期发布的 o1、o3 系列模型的高计算量模式，需要处理的输入 + 输出总 token 数从几万量级上升到了几百万量级。

来自主题: AI技术研报

7330 点击 2025-01-11 13:45

让7B千问模型超越o1，微软rStar-Math惊艳登场，网友盛赞

OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力，就输出越多智能，一直到超越人类水平。

来自主题: AI技术研报

6234 点击 2025-01-11 11:22