技术Blog | 超强端侧多模态大模型MiniCPM-V 2.0: 具备领先OCR和理解能力
技术Blog | 超强端侧多模态大模型MiniCPM-V 2.0: 具备领先OCR和理解能力MiniCPM 系列的最新多模态版本 MiniCPM-V 2.0。该模型基于 MiniCPM 2.4B 和 SigLip-400M 构建,共拥有 2.8B 参数。MiniCPM-V 2.0 具有领先的光学字符识别(OCR)和多模态理解能力
MiniCPM 系列的最新多模态版本 MiniCPM-V 2.0。该模型基于 MiniCPM 2.4B 和 SigLip-400M 构建,共拥有 2.8B 参数。MiniCPM-V 2.0 具有领先的光学字符识别(OCR)和多模态理解能力
大语言模型的效率,正在被这家「清华系」创业公司发展到新高度。
在实践中,人类预测的准确性依赖于「群体智慧」(wisdom of the crowd)效应,即通过聚集一群个体预测者,对未来事件的预测准确率会显著提高
特工少女说:顾洲洪老师是复旦大学数据科学博士,最近新发表了一篇《AgentGroupChat: An Interactive Group Chat Simulacra For Better Eliciting Emergent Behavior》的论文,此文是顾老师自己对论文的解读,经授权转载自顾老师的知乎,点击文末阅读原文可跳转原文链接,学术交流可加文末顾老师的微信。
成立2年,估值40亿美元AI初创公司,被微软一夜吞噬。今天,Inflection两位联创官宣加入微软成立的新部门Microsoft AI,分别担任负责人和首席科学家。网友纷纷表示微软仅通过「雇佣」就把Inflection「收购了」。
信息革命产生了数字世界,数字世界为大模型的诞生提供了数据,也最容易实现通用人工智能(AGI)。
谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。
微软研究院上线了面向全球研究界的全新线上系列活动 Microsoft Research Forum,旨在共同探讨人工智能时代的最新研究进展、大胆新颖的想法以及全球研究界关注的重要议题。来自微软研究院全球各地的研究人员将分享他们的研究洞见,并与大家进行在线讨论,希望碰撞出更多新的思想火花。
据The information的Creator Economy Database最新数据,在数据库覆盖的350多家全球创业公司中,2023年募得资金量继续螺旋式下降,至约17亿美元,其中人工智能初创企业在融资份额中占比最大,超3.24亿美元。
AI 视频生成,是最近最热门的领域之一。各个高校实验室、互联网巨头 AI Lab、创业公司纷纷加入了 AI 视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等视频生成模型的发布,更是让人眼前一亮。