北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准
北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准本文构建了新的多轮组合图像检索数据集和评测基准FashionMT。其特点包括:(1)回溯性:每轮修改文本可能涉及历史参考图像信息(如保留特定属性),要求算法回溯利用多轮历史信息;(2)多样化:FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍,且交互轮次数量接近其27倍,提供了丰富的多模态检索场景。
搜索
本文构建了新的多轮组合图像检索数据集和评测基准FashionMT。其特点包括:(1)回溯性:每轮修改文本可能涉及历史参考图像信息(如保留特定属性),要求算法回溯利用多轮历史信息;(2)多样化:FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍,且交互轮次数量接近其27倍,提供了丰富的多模态检索场景。
随着 DeepSeek 问世,从春节至今,和AI有关的资讯与讨论已经让人有些疲劳。然而,相关讨论大都聚焦在产业、投资和技术方面,其中不乏优质信息,但仍缺少一个重要的视角——作为普通用户,我们如何看待并使用AI。
去年10月,家族元老41岁的孙子Kuok Meng Wei执掌的集团非上市子公司K2 Strategic在占地700英亩的塞德纳克科技园(Sedenak Tech Park)开设了一座60兆瓦的数据中心(容量以能耗计)。
刚刚,Claude背后公司Anthropic官宣新一轮融资: 35亿美元!投后估值达到615亿。 在Clauede-3.7发布后,此轮新融资便浮出水面,并在今天正式公布。
满血版DeepSeek R1部署A100,基于INT8量化,相比BF16实现50%吞吐提升! 美团搜推机器学习团队最新开源,实现对DeepSeek R1模型基本无损的INT8精度量化。
一年一度,今年的世界移动通信大会(MWC)如期在巴塞罗那开展。 不出所料,巴展无处不AI。 连没有前来参会的DeepSeek也有被cue到。
近日,开立医疗成功获得了国内首个产前超声人工智能医疗器械证。这一历史性的突破奠定了开立医疗在医疗行业智能化领域的先锋地位。
通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!
DeepSeek MoE“变体”来了,200美元以内,内存需求减少17.6-42%! 名叫CoE(Chain-of-Experts),被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。
台积电豪掷千亿美元在美建厂,特朗普高调站台。与此同时,昔日霸主英特尔奋起直追,18A制程被寄予厚望,英伟达、博通等巨头秘密测试。代工大战硝烟再起!然而,18A制程的延期又为英特尔的复兴之路蒙上阴影。
基于内置思维链的思考方法为解决多轮会话中存在的问题提供了研究方向。按照思考方法收集训练数据集,通过有监督学习微调大语言模型;训练一个一致性奖励模型,并将该模型用作奖励函数,以使用强化学习来微调大语言模型。结果大语言模型的推理能力和计划能力,以及执行计划的能力得到了增强。
就在昨天,全国产算力训出的讯飞星火X1全面升级!70B小身板在数学领域全面领先,性能直接对标OpenAI o1和DeepSeek-R1。单机部署成本骤降,彻底颠覆行业应用门槛。
给DeepSeek-R1推理指导,它的数学推理能力就开始暴涨。更令人吃惊是,Qwen2.5-14B居然给出了此前从未见过的希尔伯特问题的反例!而人类为此耗费了27年。研究者预言:LLM离破解NP-hard问题,已经又近了一步。
随着R1等先进推理模型展现出接近人类的推理能力,多代理系统(Multi-Agent Systems,MAS)的发展也出现了前所未有的机遇。然而,随着我们尝试构建越来越复杂的多代理系统,一个核心问题日益凸显:如何在保持系统灵活性的同时,降低开发和维护的复杂度?
今年在巴塞罗那的 MWC 上,有一家运营商宣布与顶级 AI 公司合作打造智能手机。而现在,德国电信Deutsche Telekom(DT)宣布正在构建一款“AI Phone”。这是一款与 Perplexity 以及 Picsart 等公司紧密合作打造的低成本手机,同时推出了一款名为“Magenta AI”的新 AI 助手应用。
上周DeepSeek连续5天开源硬核技术,阿里开源万相2.1,Qwen的推理模型推出预览版,但是肯定马上也要开源。而今天,智谱这个曾经的开源之光,在昨天官宣拿了杭州10亿融资之后,在官宣文章里如此写道:
今天想介绍一个 17 岁的华裔大学生,他最近做的一个 AI Wrapper 产品,发布 5 小时收入就突破了 1 万美金,随后在发布的推文火了之后又通过线上会议 Google Meet 的售后承诺在 24 小时赚到了 3 万美金。
国内首个原生AI IDE(集成开发环境),来自字节,实测在此:哪怕一点代码都不懂,只要能说出自己的需求,就能靠AI开发出一个功能完备的应用。例如如果你想做一个Flappy Bird游戏,那就用中文跟它说一声就行:
要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准,各家模型出街时人手一份,但局限性也开始暴露,比如覆盖范围狭窄(通常不足 50 个学科),不含长尾知识;缺乏足够挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。
在 DeepSeek 生成的文本中,有 74.2% 的文本在风格上与 OpenAI 模型具有惊人的相似性?这是一项新研究得出的结论。这项研究来自 Copyleaks—— 一个专注于检测文本中的抄袭和 AI 生成内容的平台。
AFFiNE,一个开源的 AI 协作知识库,集成了完整文档、白板和数据库的工作空间。累计融资 1000 万美元,开源项目在 Github 上超过 4.5 万 stars。创始人、CEO 贺嘉琛,连续创业者。创业前研究天体物理,毕业于格拉斯哥与香港科技大学。
基础模型竞争又紧张刺激起来了!GPT-4.5刚登顶竞技场且全任务分类第一名,6小时后总榜就被马斯克的新版Grok-3反超。两者都是获得3000+票数,总分1412:1411只差一分。
2025年2月27日,由前扩散模型领域顶尖研究者创立的Inception Labs正式发布了全球首个商业级扩散大语言模型(dLLM)——“Mercury”。这一里程碑式产品不仅在生成速度、硬件效率和成本控制上实现突破,更标志着自然语言处理技术从自回归(Autoregressive)范式向扩散(Diffusion)范式的重大跃迁。
全球生态学家正面临一场「数据海啸」——红外相机陷阱每天产生数百万张野生动物照片,但人工分类需耗时数周。
又添新鲜血液。根据 TechCrunch 报道,由一位华人创始人 Weber Wong 开发的 AI 创意工具 Flora 于 3 月 1 日正式上线。时至今日,AI 图像与视频赛道的产品和格局已经有点固化了,能够有新鲜产品加入,还是华人创始人,确实很令人惊喜。
“造人”难,“卖人”更难。
为了「星际之门」,软银CEO孙正义正在疯狂借钱!巨额贷款、高风险投资、宏伟愿景……这位「投资狂人」再次押注未来。他能否凭借AI重塑辉煌,还是会重蹈WeWork的覆辙?
专栏作家Kevin Roose发文称,门外汉用AI就能开发出App,并表示程序员前途不妙。马库斯公开表示Kevin Roose只是重复了别人的创意,所做所为是贩卖焦虑,误人子弟,一旦小孩信以为真,不学编程,美国科技业将万劫不复!
大模型时代,万物皆可AI,通信也不例外。
面向复杂PC任务的多模态智能体框架PC-Agent,来自阿里通义实验室。