AI资讯新闻榜单内容搜索-长上下文

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 长上下文

用155万模拟视频给模型上课！GVE模型一次学会9种视频检索技能

用155万模拟视频给模型上课！GVE模型一次学会9种视频检索技能

用155万模拟视频给模型上课！GVE模型一次学会9种视频检索技能

当前视频检索研究正陷入一个闭环困境：以MSRVTT为代表的窄域基准，长期主导模型在粗粒度文本查询上的优化，导致训练数据有偏、模型能力受限，难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求。

来自主题: AI技术研报

5388 点击 2025-11-14 09:41

终结Transformer统治！清华姚班校友出手，剑指AI「灾难性遗忘」

终结Transformer统治！清华姚班校友出手，剑指AI「灾难性遗忘」

终结Transformer统治！清华姚班校友出手，剑指AI「灾难性遗忘」

大模型「灾难性遗忘」问题或将迎来突破。近日，NeurIPS 2025收录了谷歌研究院的一篇论文，其中提出一种全新的「嵌套学习（Nested Learning）」架构。实验中基于该框架的「Hope」模型在语言建模与长上下文记忆任务中超越Transformer模型，这意味着大模型正迈向具备自我改进能力的新阶段。

来自主题: AI技术研报

6960 点击 2025-11-10 09:56

Kimi开源新线性注意力架构，首次超越全注意力模型，推理速度暴涨6倍

Kimi开源新线性注意力架构，首次超越全注意力模型，推理速度暴涨6倍

Kimi开源新线性注意力架构，首次超越全注意力模型，推理速度暴涨6倍

月之暗面最新发布的开源Kimi Linear架构，用一种全新的注意力机制，在相同训练条件下首次超越了全注意力模型。在长上下文任务中，它不仅减少了75%的KV缓存需求，还实现了高达6倍的推理加速。

来自主题: AI技术研报

9184 点击 2025-10-31 15:46

长上下文窗口、Agent崛起，RAG已死？

长上下文窗口、Agent崛起，RAG已死？

长上下文窗口、Agent崛起，RAG已死？

在技术飞速更新迭代的今天，每隔一段时间就会出现「XX 已死」的论调。「搜索已死」、「Prompt 已死」的余音未散，如今矛头又直指 RAG。

来自主题: AI资讯

6669 点击 2025-10-20 15:03

第二代InfLLM开源，同尺寸快三倍！零参数，可训练稀疏注意力

第二代InfLLM开源，同尺寸快三倍！零参数，可训练稀疏注意力

第二代InfLLM开源，同尺寸快三倍！零参数，可训练稀疏注意力

InfLLM-V2是一种可高效处理长文本的稀疏注意力模型，仅需少量长文本数据即可训练，且性能接近传统稠密模型。通过动态切换短长文本处理模式，显著提升长上下文任务的效率与质量。从短到长低成本「无缝切换」，预填充与解码双阶段加速，释放长上下文的真正生产力。

来自主题: AI技术研报

8145 点击 2025-10-13 11:55

英伟达新GPU，超长上下文/视频生成专用

英伟达新GPU，超长上下文/视频生成专用

英伟达新GPU，超长上下文/视频生成专用

老黄对token密集型任务下手了。

来自主题: AI资讯

8922 点击 2025-09-10 12:19

扎克伯格的豪赌初见成效？Meta新方法让LLM长上下文处理提速30倍

扎克伯格的豪赌初见成效？Meta新方法让LLM长上下文处理提速30倍

扎克伯格的豪赌初见成效？Meta新方法让LLM长上下文处理提速30倍

经历了前段时间的鸡飞狗跳，扎克伯格的投资似乎终于初见成效。

来自主题: AI技术研报

6874 点击 2025-09-08 16:30

每月20元！智谱GLM-4.5杀入Claude Code，开启编程API“包月”时代

每月20元！智谱GLM-4.5杀入Claude Code，开启编程API“包月”时代

每月20元！智谱GLM-4.5杀入Claude Code，开启编程API“包月”时代

这段时间 AI 编程的热度完全没退，一个原因是国内接连推出开源了不少针对编程优化的大模型，主打长上下文、Agent 智能体、工具调用，几乎成了标配，成了 Claude Code 的国产替代，比如 GLM-4.5、DeepSeek V3.1、Kimi K2。

来自主题: AI资讯

10507 点击 2025-09-02 11:41

Meta没做的，英伟达做了！全新架构吞吐量狂飙6倍，20万亿Token训练

Meta没做的，英伟达做了！全新架构吞吐量狂飙6倍，20万亿Token训练

Meta没做的，英伟达做了！全新架构吞吐量狂飙6倍，20万亿Token训练

英伟达发布全新架构9B模型，以Mamba-Transformer混合架构实现推理吞吐量最高提升6倍，对标Qwen3-8B并在数学、代码、推理与长上下文任务中表现持平或更优。

来自主题: AI资讯

7765 点击 2025-08-19 11:35

MiniMax 技术闭门会分享：长上下文是 Agent 的 Game Changer

MiniMax 技术闭门会分享：长上下文是 Agent 的 Game Changer

MiniMax 技术闭门会分享：长上下文是 Agent 的 Game Changer

MiniMax 在 7 月 10 日面向全球举办了 M1 技术研讨会，邀请了来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、vLLM、RL领域的研究者及业界嘉宾，就模型架构创新、RL训练、长上下文应用等领域进行了深入的探讨。

来自主题: AI资讯

7775 点击 2025-07-20 12:37

上一页当前第1页,共7页下一页