LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像 Sora 这样通过生成像素来建模世界的方式注定要失败。
自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像 Sora 这样通过生成像素来建模世界的方式注定要失败。
最近,来自上海大学、山东大学和埃默里大学等机构的研究人员首次提出了文本边图的数据集与基准,包括9个覆盖4个领域的大规模文本边图数据集,以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究,有利于自然语言处理与图数据挖掘领域的深度合作。
近日,谷歌DeepMind发表的一项研究登上了Nature期刊的封面,研究人员开发了一种名为SynthID-Text的水印方案,已经在自家的Gemini上投入使用,跟踪AI生成的文本内容,使其无所遁形。
MME-Finance 是一个专为金融领域设计的多模态基准测试,由同花顺财经旗下的 HiThink 研究团队联合多家高校共同开发,旨在评估和提升多模态大型语言模型(MLLMs)在金融领域的专业理解和推理能力。
来自美国医学院的研究团队聚焦于医学图像分割领域中人工智能基础模型的开发与应用,提供了一个全面的基础模型开发框架。
我们请到了边塞科技创始人 & CEO 吴翼。他一直活跃在 AI 研究的各个领域。2020 年,他辞去了 OpenAI 的研究员工作,回到清华叉院担任助理教授,并开启了自己的 AI 创业项目。
最近,微软研究院开发的AI²BMD登上了Nature。这是生物分子动力学(MD)模拟中,继经典MD和量子力学之后,首个成功地兼顾了模拟效率和精度的开创性方法!AlphaFold之后,AI在生化科学领域带来的革新仍在继续。
现在正是多模态大模型的时代,图像、视频、音频、3D、甚至气象运动都在纷纷与大型语言模型的原生文本模态组合。而浙江大学及其计算机创新技术研究院的一个数十人团队也将结构化数据(包括数据库、数仓、表格、json 等)视为了一种独立模态。
今年我的重心转向了学习物理、阅读历史和写作,很少再专门思考AI话题。
近日,伊利诺伊大学香槟分校的研究团队发布了一篇开创性论文,首次从理论层面证明了大语言模型(LLM)中的prompt机制具有图灵完备性。这意味着,通过合适的prompt设计,一个固定大小的Transformer模型理论上可以计算任何可计算函数。这一突破性发现为prompt工程提供了坚实的理论基础。