
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024音视频大语言模型在处理视频内容时,往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新:音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准确性。
音视频大语言模型在处理视频内容时,往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新:音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准确性。
本周一在丹佛举行的SIGGRAPH会议上,英伟达(纳斯达克股票代码:NVDA)首席执行官黄仁勋预览了他所认为的生成人工智能的下一波浪潮——物理人工智能(physical AI)。
网友不吝赞叹:AI 视觉生成又迈出了一大步。
《MCtalk • CEO对话》是网易数智推出的一档CEO对话栏目。网易副总裁、网易数智总经理阮良将作为主 MC 深度对话 ToB 行业经营者、PE/VC 投资人、各行企业决策者等,就 ToB 从业者所关注的焦点问题发问,就全球科技与创投热点话题追问,就技术之变、行业之变、时代之变等命题展开对话,探寻企业发展规律,响亮地发出网易之声。
据彭博社报道,包括Coatue,Alkeon Capital Management和General Catalyst Partners在内的投资者已经投资了Figma,估值被认定为125亿美元(折合人民币910亿元),该交易被广泛认为是为IPO做准备。
随着人工智能(AI)技术的迅猛发展,特别是大语言模型(LLMs)如 GPT-4 和视觉语言模型(VLMs)如 CLIP 和 DALL-E,这些模型在多个技术领域取得了显著的进展。
自回归训练方式已经成为了大语言模型(LLMs)训练的标准模式, 今天介绍一篇来自阿联酋世界第一所人工智能大学MBZUAI的VILA实验室和CMU计算机系合作的论文,题为《FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation》
最近,Latent Space发布的播客节目中请来了Meta的AI科学家Thomas Scialom。他在节目中揭秘了Llama 3.1的一些研发思路,并透露了后续Llama 4的更新方向。
最近两款大型 AI 模型相继发布。
“大模型在硬件端最先落地的商业化场景将是儿童硬件。”