AI资讯新闻榜单内容搜索-模型训练

RAE的终极形态？北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

统一多模态模型要求视觉表征必须兼顾语义（理解）和细节（生成 / 编辑）。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器，面临理解与重建的权衡：直接量化 CLIP 特征会损害理解性能；而为冻结的 CLIP 训练解码器，又因特征细节缺失而无法精确重建。例如，RAE 使用冻结的 DINOv2 重建，PSNR 仅 19.23。

来自主题: AI技术研报

8514 点击 2025-11-03 09:50

AEPO：智能体熵平衡策略优化，让探索更稳，推理更深！

AEPO 系统性揭示了「高熵 Rollout 采样坍缩」和「高熵梯度裁剪」问题，并设计了「动态熵平衡 Rollout 采样」与「熵平衡策略优化」两项核心机制。前者通过熵预监控与连续分支惩罚实现全局与局部探索预算的自适应分配，后者在策略更新阶段引入梯度停止与熵感知优势估计以保留高熵 token 的探索梯度。

来自主题: AI技术研报

7966 点击 2025-11-02 10:32

锁定角色，「多主体」也可控！个性化文生图，给你PS般交互体验

LayerComposer革新了个性化图像生成，让用户像在Photoshop里一样自由操控元素位置、大小，解决传统方法交互性与多主体扩展难题，实现更自然、高效的创作，推动个性化生成迈向主动交互新阶段。

来自主题: AI技术研报

9080 点击 2025-11-02 10:07

少量视角也能得到完整3D几何，即插即用的语义增强重建插件来了

直观经验却告诉我们，只要把同一物体的 “对应部分” 对齐，形状就会变得清晰。基于这一朴素而有效的直觉，作者提出SERES（Semantic-Aware Reconstruction from Sparse Views），在不改动主干框架的前提下，把跨视角的语义一致性变成一种训练期先验注入到模型里，用低成本的方法去解决高价值的歧义问题，让少量视角也能得到清晰而完整的几何。

来自主题: AI技术研报

7284 点击 2025-11-02 10:03

上海AI Lab发布混合扩散语言模型SDAR：首个突破6600 tgs的开源扩散语言模型

近日，上海人工智能实验室针对该难题提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。该方法通过「训练-推理解耦」的巧妙设计，无缝融合了 AR 模型的高性能与扩散模型的并行推理优势，能以极低成本将任意 AR 模型「改造」为并行解码模型。

来自主题: AI技术研报

8269 点击 2025-11-01 12:57

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练，可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据，结合稀疏推理（Sparse-Thinking）与衰减持续损失（decaying continual loss），大幅提升了智能体的可扩展性和泛化性。

来自主题: AI技术研报

8557 点击 2025-11-01 09:42

港科提出新算法革新大模型推理范式：随机策略估值竟成LLM数学推理「神操作」

论文第一作者何浩然是香港科技大学博士生，研究方向包括强化学习和基础模型等，研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香港科技大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计

来自主题: AI技术研报

8833 点击 2025-11-01 09:24

内存直降50%，token需求少56%！用视觉方式处理长文本

在NeurIPS 2025论文中，来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST（Vision-centric Token Compression in LLM），为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是，这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。

来自主题: AI技术研报

9273 点击 2025-11-01 09:23

Kimi开源新线性注意力架构，首次超越全注意力模型，推理速度暴涨6倍

月之暗面最新发布的开源Kimi Linear架构，用一种全新的注意力机制，在相同训练条件下首次超越了全注意力模型。在长上下文任务中，它不仅减少了75%的KV缓存需求，还实现了高达6倍的推理加速。

来自主题: AI技术研报

10190 点击 2025-10-31 15:46

重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」

在多模态生成领域，由视频生成音频（Video-to-Audio，V2A）的任务要求模型理解视频语义，还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归（Auto-Regressive）的方式将视频特征作为前缀来逐个生成音频 token，或者以掩码预测（Mask-Prediction）的方式并行地预测音频 token，逐步生成完整音频。

来自主题: AI技术研报

8177 点击 2025-10-31 15:00