大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”
大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”多模态大模型(MLLM)在自然图像上已取得显著进展,但当问题落在图表、几何草图、科研绘图等结构化图像上时,细小的感知误差会迅速放大为推理偏差。
多模态大模型(MLLM)在自然图像上已取得显著进展,但当问题落在图表、几何草图、科研绘图等结构化图像上时,细小的感知误差会迅速放大为推理偏差。
随着 AI 技术的发展,大语言模型已经越来越多地应用于人们的日常生活中。需要了解的是,现阶段大语言模型面临版权保护的实际需求:
OpenAI Atlas、Perplexity Comet等AI浏览器的推出,虽提升了网页自动化效率,却也使智能爬虫威胁加剧。南洋理工大学团队研发的WebCloak,创新性地混淆网页结构与语义,打破爬虫技术依赖,为数据安全筑起轻量高效防线,助力抵御新型智能攻击,守护网络安全。
在自动化需求中,传统的RPA(机器人流程自动化)主要解决规则明确的重复性任务,在当时是较为主流的解决方案。
「在大模型热潮中,如何真正评测它们的智能?」
过去一周,我把主流 AI 浏览器都体验了个遍。 OpenAI 的 Atlas、Perplexity 的 Comet、Browser Company 的 Dia,再加上 Edge Copilot,市面上最火的 AI 浏览器,各有各的亮点,也各有各的坑。浏览器的未来长啥样?这些产品给出了完全不同的答案。
每周我们都会和不少AI公司创业者交流,体验和评测新的AI产品,以各种方式去研究这些项目。
一款由10人团队打造的AI助手Poke,颠覆了传统AI的“讨好”形象。用户必须先“说服”一个AI门卫才能加入,并且订阅价格需要像谈生意一样,与这个风趣的AI“讨价还价”才能敲定。
一个研究者一天到底要读多少篇论文才能跟上最新趋势?在 AI 研究成果爆炸的今天,这个数字变得越来越模糊。人的阅读速度,早就跟不上 AI 科研地图扩展的速度了。
好消息:AI 越来越好用了。 坏消息:越用它越笨。
11月的第一天,一支12年周期的 AI Fund——「锦秋基金」办了一场 CEO 大会。
AI播客现在是否已成为了一门好生意?
在大数据和大模型推动下,微调技术凭借成本低、效率高优势,成为应对小样本、长尾目标等复杂场景的利器。从早期全参数微调到参数高效微调(PEFT),再到如今融合多种PEFT技术的混合微调,遥感微调技术不断进化。清华大学等团队在CVMJ期刊上系统梳理了技术脉络,并指出了九个潜在研究方向,助力遥感技术在农业监测、天气预报等关键领域发挥更大作用。
前段时间某视频模型更新 2.0 的时候,写了一篇文章,其中提到了一个观点:用户不需要第二个 AI 视频的抖音。这次核心不是模型能力提升,不是 AI Feed 流,而是底层模型能力提升带来的全新「创意社交」玩法。
在 AI 多模态的发展历程中,OpenAI 的 CLIP 让机器第一次具备了“看懂”图像与文字的能力,为跨模态学习奠定了基础。如今,来自 360 人工智能研究院冷大炜团队的 FG-CLIP 2 正式发布并开源,在中英文双语任务上全面超越 MetaCLIP 2 与 SigLIP 2,并通过新的细粒度对齐范式,补足了第一代模型在细节理解上的不足。
AI时代,人不再只是「社会关系的总和」,而是由无数数据、记录和互动的上下文构成的。
统一多模态模型要求视觉表征必须兼顾语义(理解)和细节(生成 / 编辑)。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器,面临理解与重建的权衡:直接量化 CLIP 特征会损害理解性能;而为冻结的 CLIP 训练解码器,又因特征细节缺失而无法精确重建。例如,RAE 使用冻结的 DINOv2 重建,PSNR 仅 19.23。
奥特曼正在用万亿美金的算力豪赌,试图买下全球GPU来喂饱「增长黑洞」。为什么AI竞争的终局不是模型,而是算力?
从 AI 女友到数字面试官,人格化 AI 正在「登陆」你的所有屏幕。
Meta首席执行官马克·扎克伯格近日批准了一项涉及约600名员工的AI部门裁员计划,这是Meta今年在人工智能领域规模最大的一次调整,主要波及公司核心研发机构。在此消息公布后,田渊栋首次公开露面,接受了腾讯科技特约作者「课代表立正」的独家深度访谈。
当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。
对冲基金Praetorian Capital创始人哈里斯·库珀曼(Harris Kupperman)向《每日经济新闻》记者(以下简称每经记者)表示,AI投资从回报上看说不通。整个AI行业需要1万亿美元的收入才能实现收支平衡,而目前行业的月收入仅略超10亿美元。也就是说,要收回目前计划的支出,需要约83年。
“只有做让自己快乐的事,才能释放全部的能量。” 👦🏻 播客采访:Koji、Ronghui 🥷 整理编辑:Bella 🧑🎨 排版:NCon 在今年火热的 AI 硬件赛道里,AI 耳机几乎已经是一张“明
OpenAI完成“股改”,奥特曼和微软纳德拉一起露面回应一切了。从OpenAI新组织结构的影响,到微软与OpenAI的后续合作,再到AI未来,两人在1个多小时的时间里,深入聊了不少外界感兴趣的话题。
AI健康管理领域的产品层出不穷,功能设计结合大模型甚至Agent也成为当前发展方向。OtterLife,这款AI健康管理产品,将虚拟游戏宠物角色“海獭”融入用户健康习惯养成过程,却在动力略显不足的市场现状下,获得了上线一年用户破百万的亮眼成绩,且用户留存率超过行业平均水平。
在AI加持下的这一年人类突飞猛进,停下来回头看去,似乎AI已经无所不能,但前OpenAI灵魂研究员认为AI不可能瞬间超越人类,他还提出了三个关于AI的最新洞见。所有能被验证的任务,最终都会被AI解决 智能最后会变成商品,知识价格归零 AI不会瞬间超过人类
最近,这家中国头部的海外营销服务商有了新动向,他们自研的首款企业级聚焦出海营销的⾏业垂类agent“Navos”即将发布。两个月前,我们曾在《全球化的“影子世界”》一文中讲述了一系列中国企业走向全球化链条中处于枢纽位置的“影子公司”们,钛动就是其中之一。
最开始,我们 CTO 计划选择 Coze,但查了下,Coze 整个项目还是比较大,而且后端是 Golang 编写的。我考虑了下,估计后续维护和开发对于中小团队来说比较吃力。各种权衡之后,我们选择了科大讯飞的 Astron Agent。主要原因有两个:
硅谷巨头正秘密培养第一批「AI原生代」。地点却选在了大学!在亚马逊、OpenAI、Meta、英伟达等巨头的推动下,CSU想成为美国首个并且是最大的AI赋能大学!
咱就是说,大家微信星标的那一溜儿公众号,真会点开看吗?直到我最近,偷偷把这个苦差事,外包给了一个叫语鲸的AI。等一下…这logo,咋一股DeepSeek味儿?