AI资讯新闻榜单内容搜索-Ash

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

本文构建了新的多轮组合图像检索数据集和评测基准FashionMT。其特点包括：（1）回溯性：每轮修改文本可能涉及历史参考图像信息（如保留特定属性），要求算法回溯利用多轮历史信息；（2）多样化：FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍，且交互轮次数量接近其27倍，提供了丰富的多模态检索场景。

来自主题: AI技术研报

8507 点击 2025-03-05 08:46

受R1启发，微软亚洲发布Logic-RL，帮助LLM通过RL解决"骑士与骗子"逻辑谜题

本文深入解析一项开创性研究——"Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning"，该研究通过基于规则的强化学习技术显著提升了语言模型的推理能力。微软亚洲的研究团队受DeepSeek-R1成功经验的启发，利用结构化的逻辑谜题作为训练场，为模型创建了一个可以系统学习和改进推理技能的环境。

来自主题: AI技术研报

7365 点击 2025-02-26 09:56

小学生也能听懂的FlashMLA技术解析 - 哆啦 A 梦的「超高效作业处理魔盒」！

大雄：（趴在书桌前抓头发）哆啦 A 梦！今天的作文题目是《未来的机器人》，可是我要写800字！写不完啦！哆啦 A 梦：（得意叉腰）别担心！我刚从22世纪带来了「超高效作业处理器」——FlashMLA 魔盒！它能让写作文像吃铜锣烧一样快哦！

来自主题: AI资讯

7714 点击 2025-02-25 09:41

一文详解DeepSeek开源的FlashMLA，他们才是真正的“源神”

刚刚，万众瞩目的DeepSeek，开源了他们第一天的项目。FlashMLA是一款面向Hopper GPU的高效MLA解码内核，并针对可变长度序列的服务场景进行了优化。

来自主题: AI资讯

9438 点击 2025-02-24 11:28

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

DeepSeek开源周第一天就放大招！FlashMLA强势登场，这是专为英伟达Hopper GPU打造MLA解码内核。注意，DeepSeek训练成本极低的两大关键，一个是MoE，另一个就是MLA。

来自主题: AI资讯

10289 点击 2025-02-24 10:57

刚刚，DeepSeek开源FlashMLA，推理加速核心技术，Star量飞涨中

上周五，DeepSeek 发推说本周将是开源周（OpenSourceWeek），并将连续开源五个软件库。第一个项目，果然与推理加速有关。北京时间周一上午 9 点，刚一上班（同时是硅谷即将下班的时候），DeepSeek 兑现了自己的诺言，开源了一款用于 Hopper GPU 的高效型 MLA 解码核：FlashMLA。

来自主题: AI资讯

9495 点击 2025-02-24 10:26

AI写代码新姿势：一个截图，代替千行代码

现在写代码，最fashion的“姿势”应该是什么？答案或许就是：截图。商汤在今天GDC（全球开发者先锋大会）中办公小浣熊2.0最新升级的功能。

来自主题: AI资讯

9627 点击 2025-02-22 21:50

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

Scale AI 等提出的新基准再次暴露了大语言模型的弱点。

来自主题: AI技术研报

10198 点击 2025-02-17 14:49

冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

本周三，该公司全面发布 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验版本，并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。

来自主题: AI资讯

9942 点击 2025-02-06 15:13

最懂医疗的国产推理大模型，果然来自百川智能

就在本周，Kimi 的新模型打开了强化学习 Scaling 新范式，DeepSeek R1 用开源的方式「接班了 OpenAI」，谷歌则把 Gemini 2.0 Flash Thinking 的上下文长度延伸到了 1M。1 月 24 日上午，百川智能重磅发布了国内首个全场景深度思考模型，把这一轮军备竞赛推向了高潮。

来自主题: AI资讯

7370 点击 2025-01-26 12:16