突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。
GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。
近期,港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆 TTS 模型 ——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语言生成能力,同时保持了较强的稳定性。MaskGCT 已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统 Amphion 发布。
做底层大模型研发,就像一场旷日持久的马拉松,研发成本高、技术门槛高,迭代竞争激烈。拿 OpenAI 来说,研发带来的年亏损高达 50 亿美元。这样的财务压力显然不是一般的 AI 公司所能承受之重。AI 创业公司也往往显得十分务实,始终将商业化和盈利变现作为核心考量。
多模态模型,统一图像生成。
如何通过更好的提示工程来提升模型的推理能力,一直是研究人员和工程师们关注的重点。
北京时间 10 月 30 日,GitHub Universe 2024 如约而至,而今年正值大会十周年纪念日。本文将从 GitHub 发布的 AI 新进展入手,围绕开源模型、用户数量、盈利模式、发展历程等几个方面,全面梳理 GitHub 与 Hugging Face 两大开源平台的异同。
创业9个月不到,李洋光是技术研发投入就烧光了2000万元,8月现金流断裂后,离开大厂,曾经想“用AGI改变世界”的李洋,创业未半,中道还背上了债务。
一夜之间,名为“red_panda” (小熊猫)的神秘文生图模型狠狠火了!!
让大模型能快速、准确、高效地吸收新知识!
TimeMixer++是一个创新的时间序列分析模型,通过多尺度和多分辨率的方法在多个任务上超越了现有模型,展示了时间序列分析的新视角,在预测和分类等任务带来了更高的准确性和灵活性。