AI资讯新闻榜单内容搜索-diffusion

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: diffusion
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。现有方法如扩散模型(Diffusion Models)和流匹配(Flow Matching)虽取得了显著进展,但仍面临依赖噪声分布、复杂条件机制等挑战。

来自主题: AI技术研报
6865 点击    2025-06-04 14:18
冲击自回归,扩散模型正在改写下一代通用模型范式

冲击自回归,扩散模型正在改写下一代通用模型范式

冲击自回归,扩散模型正在改写下一代通用模型范式

上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中,Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模型!

来自主题: AI技术研报
6826 点击    2025-06-04 14:04
原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作,首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT(Joint Diffusion Transformer)框架实现了图像 → 动态视频 + 声音的高质量联合生成。

来自主题: AI技术研报
7501 点击    2025-05-29 14:20
速递|破解3D生成取代CAD?SpAItial获1300万美金种子资金,前Synthesia联创集结Meta谷歌豪华技术团队

速递|破解3D生成取代CAD?SpAItial获1300万美金种子资金,前Synthesia联创集结Meta谷歌豪华技术团队

速递|破解3D生成取代CAD?SpAItial获1300万美金种子资金,前Synthesia联创集结Meta谷歌豪华技术团队

从OpenAI 的 4o 到 Stable Diffusion,能够根据文本提示生成逼真图像的 AI 基础模型如今已比比皆是。相比之下,能够仅凭文本提示就生成完整、连贯的 3D 在线环境的基础模型才刚刚崭露头角。

来自主题: AI资讯
5813 点击    2025-05-28 15:13
与Gemini Diffusion共振!首个扩散式「发散思维链」来了

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

近年来,思维链在大模型训练和推理中愈发重要。近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。

来自主题: AI技术研报
5834 点击    2025-05-27 13:21
19岁少年「破解」谷歌新AI?每秒1479 token,扩散再战GPT!

19岁少年「破解」谷歌新AI?每秒1479 token,扩散再战GPT!

19岁少年「破解」谷歌新AI?每秒1479 token,扩散再战GPT!

年仅19岁少年,自称破解了谷歌最快的语言模型Gemini Diffusion,引爆社交平台。真相扑朔迷离,但有一点毫无疑问:谷歌I/O大会的「黑马」,比GPT快10倍的速度、媲美人类程序员的代码能力,正在掀起一场NLP范式大洗牌。

来自主题: AI资讯
7618 点击    2025-05-24 19:28
比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

普林斯顿大学与字节 Seed、北大、清华等研究团队合作提出了 MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。

来自主题: AI技术研报
7831 点击    2025-05-22 17:30