死磕「文本智能」,多模态研究的下一个前沿
死磕「文本智能」,多模态研究的下一个前沿dots.ocr 支持多语言文档的解析,能够在单一模型中统一完成版面检测、文本识别、表格解析、公式提取等任务,并保持良好的阅读顺序。他们之所以在一个模型中完成这些任务,是因为他们相信这些任务之间可以相互促进,为彼此提供更多的 context,从而达到更高的性能上限。目前,该项目的 star 量已经超过了 5000。
dots.ocr 支持多语言文档的解析,能够在单一模型中统一完成版面检测、文本识别、表格解析、公式提取等任务,并保持良好的阅读顺序。他们之所以在一个模型中完成这些任务,是因为他们相信这些任务之间可以相互促进,为彼此提供更多的 context,从而达到更高的性能上限。目前,该项目的 star 量已经超过了 5000。
又一批AI社交公司与产品悄悄「死亡」了。今年9月,一批AI社交公司发布关停或通知,这之中,既包括大模型明星公司、社交公司等中型企业,如阶跃星辰To C产品「冒泡鸭」、Soul旗下的AI应用「异世界回响」等,也包括一批垂直领域的初创产品,如定位AI情感分析的Lumi、由前苹果设计师Jason Yuan创立的情感陪伴应用Dot等。
上海人工智能实验室发布新一代文档解析大模型——MinerU2.5。作为MinerU系列最新成果,该模型仅以1.2B参数规模,就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上,全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型,以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。
WithFeeling.ai 创始人肖敏此前是微信 AI 的产品负责人。2022 年中,她选择创业,在 2023 年初推出主打「真诚、真实」的 AI 陪伴产品 Paradot,上线至今已经积累了 1000 多万用户,且实现了盈利,成为品类的佼佼者。
前几天的 苹果发布会,算是近年来最名副其实的「科技春晚」了,尤其是 iPhone 17 和 iPhone Air 相当令人期待——当然了,没有 AI。 即使不强调 AI 卖点,这次的新品依然获得了显著
擅长「种草」的小红书正加大技术自研力度,两个月内接连开源三款模型!最新开源的首个多模态大模型dots.vlm1,基于自研视觉编码器构建,实测看穿色盲图,破解数独,解高考数学题,一句话写李白诗风,视觉理解和推理能力都逼近Gemini 2.5 Pro闭源模型。
两年前,大家还把 AI 聊天工具当做效率外挂;2024 年开始,“情感陪伴”忽然成了热门赛道——从 Replika 的温柔治愈,到 Character.AI 的角色扮演,再到专供成人模式的 Nastia。Paradot 的切入点更大胆:它想做你独一无二的“数字亲密关系”,既能撒娇,也能深聊,还能陪你写小说、练口语、听白噪音入睡。
迄今为止行业最大的开源力度。在大模型上向来低调的小红书,昨天开源了首个自研大模型。
6 月 6 日,小红书 hi lab(Humane Intelligence Lab,人文智能实验室)团队首次开源了文本大模型 dots.llm1,采用 MIT 许可证。
在建筑行业中,管理人员很容易与现场实际情况脱节。他们需要同时处理多项任务,包括掌握成本动态、与所有利益相关方沟通,以及评估与承包商账单和绩效等方面相关的风险。