
双胞胎兄弟创业,融资2400万美金,打造视频AI agent必备的基础设施
双胞胎兄弟创业,融资2400万美金,打造视频AI agent必备的基础设施你有没有想过,那些电视台、制作公司里堆积如山的视频素材,可能马上就要被彻底重新定义了?想象一下,从数千小时的视频内容中找到你需要的那一个镜头,不再需要安排一群人没日没夜地看片子、做标记,而是只需要简单描述一句"奥巴马谈论人权的片段",系统就能立刻定位到精确的时间点,并提供详细的场景描述、人物信息和镜头分析。
你有没有想过,那些电视台、制作公司里堆积如山的视频素材,可能马上就要被彻底重新定义了?想象一下,从数千小时的视频内容中找到你需要的那一个镜头,不再需要安排一群人没日没夜地看片子、做标记,而是只需要简单描述一句"奥巴马谈论人权的片段",系统就能立刻定位到精确的时间点,并提供详细的场景描述、人物信息和镜头分析。
我们很多语音生成工作,正是通过加入这些不完美的“人性化特征”,让合成声音显得更加真实和有情感,这也成为ElevenLabs的声音技术与众不同之处。当然,并不是所有场景都适合这种风格。但总体而言,“人性”中的不完美,恰恰是人愿意互动的关键。
迄今为止行业最大的开源力度。在大模型上向来低调的小红书,昨天开源了首个自研大模型。
6 月 6 日,小红书 hi lab(Humane Intelligence Lab,人文智能实验室)团队首次开源了文本大模型 dots.llm1,采用 MIT 许可证。
AI文本转语音已经进化到这种程度了吗?(⊙ˍ⊙)莎士比亚戏剧腔、体育赛事激情解说、沉浸式有声书等诸多玩法简直轻松拿捏,而且听起来确实人机傻傻分不清楚~
逻辑推理是人类智能的核心能力,也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现,研究人员开始探索如何将推理能力引入多模态大模型(MLLMs)
两年半前,Liam Fedus 曾参与 ChatGPT 的研发团队,掀起了人工智能热潮。如今他加入了日益壮大的 OpenAI 前员工创业阵营,乘着 AI 投资风口创立自己的企业。
没想到谷歌竟然悄咪咪上线了这么多宝藏AI应用。 最近我在Google Labs里逛了一圈,最大的感受就是:说不定这里就藏着下一个爆款AI应用的前身
AI Agent又解锁了一个领域!清华大学牵头,与西北工业大学以及上海AI lab等机构推出了电镜领域的AI agent——AutoMat。
近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果: 在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。