AI资讯新闻榜单内容搜索-VIST

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: VIST

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

在处理短文本时，大语言模型（LLM）已经表现出惊人的理解和生成能力。但现实世界中的许多任务 —— 如长文档理解、复杂问答、检索增强生成（RAG）等 —— 都需要模型处理成千上万甚至几十万长度的上下文。

来自主题: AI技术研报

7454 点击 2025-11-10 15:12

内存直降50%，token需求少56%！用视觉方式处理长文本

内存直降50%，token需求少56%！用视觉方式处理长文本

内存直降50%，token需求少56%！用视觉方式处理长文本

在NeurIPS 2025论文中，来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST（Vision-centric Token Compression in LLM），为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是，这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。

来自主题: AI技术研报

9749 点击 2025-11-01 09:23

港科广×腾讯联手打造《我的世界》神操作，400张截图就能让AI挖矿通关，成本降至5%｜EMNLP 2025

港科广×腾讯联手打造《我的世界》神操作，400张截图就能让AI挖矿通关，成本降至5%｜EMNLP 2025

港科广×腾讯联手打造《我的世界》神操作，400张截图就能让AI挖矿通关，成本降至5%｜EMNLP 2025

在大多数人眼中，《我的世界》（Minecraft）只是一款自由度极高的沙盒游戏。而在香港科技大学（广州）与腾讯联合团队的眼中，它却是一座可以演练通用人工智能的“数字练兵场”。

来自主题: AI技术研报

9458 点击 2025-09-04 15:16

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

随着AIGC技术的进步，连环画与故事绘本生成（故事可视化）逐渐引发学界与业界的广泛关注，成为电影生成叙事性的基础。

来自主题: AI资讯

8603 点击 2025-08-22 17:46

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

使用过程奖励模型（PRM）强化大语言模型的推理能力已在纯文本任务中取得显著成果，但将过程奖励模型扩展至多模态大语言模型（MLLMs）时，面临两大难题：

来自主题: AI技术研报

9172 点击 2025-07-12 11:58

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

Vista-LLaMA 在处理长视频内容方面的显著优势，为视频分析领域带来了新的解决框架。

来自主题: AI技术研报

4276 点击 2024-01-08 14:17

112页报告深挖GPT-4V！UCLA等发布全新「多模态数学推理」基准MathVista

112页报告深挖GPT-4V！UCLA等发布全新「多模态数学推理」基准MathVista

112页报告深挖GPT-4V！UCLA等发布全新「多模态数学推理」基准MathVista

大型多模态模型会做数学题吗？在UCLA等机构最新发布的MathVista基准上，即使是当前最强的GPT-4V也会感到「挫败感」。

来自主题: AI资讯

10905 点击 2023-12-05 17:15

上一页当前第1页,共1页下一页