AI资讯新闻榜单内容搜索-encoder

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: encoder
ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式

ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式

ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式

长期以来,计算机视觉领域陷入了一个 “表征(Representation)” 的执念。我们习惯设计各种精巧的 Encoder,试图将动态世界压缩成一组特征向量。然而,视频作为现实的高维投影,其熵值之高、动态之复杂,让这种试图 “定格” 的表征显得力不从心。

来自主题: AI技术研报
6094 点击    2026-03-05 09:08
刚刚,DeepSeek又探索新架构了,开源OCR 2

刚刚,DeepSeek又探索新架构了,开源OCR 2

刚刚,DeepSeek又探索新架构了,开源OCR 2

嘿!刚刚,DeepSeek 又更新了!这次是更新了十月份推出的 DeepSeek-OCR 模型。刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!

来自主题: AI资讯
9472 点击    2026-01-27 17:15
DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。

来自主题: AI技术研报
6350 点击    2026-01-27 16:51
RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

近期,RAE(Diffusion Transformers with Representation Autoencoders)提出以「 冻结的预训练视觉表征」直接作为潜空间,以显著提升扩散模型的生成性能。

来自主题: AI技术研报
11165 点击    2025-11-14 10:21
谢赛宁新作:VAE退役,RAE当立

谢赛宁新作:VAE退役,RAE当立

谢赛宁新作:VAE退役,RAE当立

谢赛宁团队最新研究给出了答案——VAE的时代结束,RAE将接力前行。其中表征自编码器RAE(Representation Autoencoders)是一种用于扩散Transformer(DiT)训练的新型自动编码器,其核心设计是用预训练的表征编码器(如DINO、SigLIP、MAE 等)与训练后的轻量级解码器配对,从而替代传统扩散模型中依赖的VAE(变分自动编码器)。

来自主题: AI技术研报
8356 点击    2025-10-14 16:34
刚刚,阿里图像编辑大杀器Qwen-Image-Edit上线,横扫像素与语义编辑,网友:再见PS

刚刚,阿里图像编辑大杀器Qwen-Image-Edit上线,横扫像素与语义编辑,网友:再见PS

刚刚,阿里图像编辑大杀器Qwen-Image-Edit上线,横扫像素与语义编辑,网友:再见PS

今天凌晨,阿里推出了最新图像编辑模型 Qwen-Image-Edit!该模型基于 200 亿参数的 Qwen-Image 架构构建,支持中英文双语精准文本编辑,在保持原有风格的同时完成修改。此外,Qwen-Image-Edit 将输⼊图像同时输⼊到 Qwen2.5-VL(实现视觉语义控制)和 VAE Encoder(实现视觉外观控制),兼具语义与外观的双重编辑能⼒。

来自主题: AI资讯
10159 点击    2025-08-19 08:52
谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

Google双线出击!T5Gemma重燃encoder-decoder架构战火,性能暴涨12分;MedGemma坚守decoder-only路线,强攻医疗多模态,击穿闭源壁垒。Gemma体系完成「架构+落地」双重进化,打响Google开源反击战。

来自主题: AI技术研报
8681 点击    2025-07-15 15:05
完全开源的代码大模型OpenCoder来了,跻身性能第一梯队

完全开源的代码大模型OpenCoder来了,跻身性能第一梯队

完全开源的代码大模型OpenCoder来了,跻身性能第一梯队

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

来自主题: AI技术研报
6872 点击    2024-11-12 16:51
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?

前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?

前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?

前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客,首篇博文的话题关于:基于encoder-only架构的BERT是如何被基于encoder-decoder架构的T5所取代的,分析了BERT灭绝的始末以及不同架构模型的优缺点,以史为鉴,对于未来的创新具有重要意义。

来自主题: AI技术研报
11003 点击    2024-07-21 16:58