AI资讯新闻榜单内容搜索-diffusion

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: diffusion
人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

近年来,diffusion Transformers已经成为了现代视觉生成模型的主干网络。随着数据量和任务复杂度的进一步增加,diffusion Transformers的规模也在快速增长。然而在模型进一步扩大的过程中,如何调得较好的超参(如学习率)已经成为了一个巨大的问题,阻碍了大规模diffusion Transformers释放其全部的潜能。

来自主题: AI技术研报
6843 点击    2025-06-26 15:52
放弃国企工作,创办一人企业:我一定能用AI挣到钱

放弃国企工作,创办一人企业:我一定能用AI挣到钱

放弃国企工作,创办一人企业:我一定能用AI挣到钱

何秋剑离开15年国企影视岗位,自学Stable Diffusion等AI工具创业。从10元图片订单起步,依靠影视基础、创意能力及客户服务,发展为月入数万的AIGC制作总监。

来自主题: AI资讯
5977 点击    2025-06-21 11:23
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。现有方法如扩散模型(Diffusion Models)和流匹配(Flow Matching)虽取得了显著进展,但仍面临依赖噪声分布、复杂条件机制等挑战。

来自主题: AI技术研报
6998 点击    2025-06-04 14:18
冲击自回归,扩散模型正在改写下一代通用模型范式

冲击自回归,扩散模型正在改写下一代通用模型范式

冲击自回归,扩散模型正在改写下一代通用模型范式

上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中,Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模型!

来自主题: AI技术研报
6964 点击    2025-06-04 14:04
原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作,首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT(Joint Diffusion Transformer)框架实现了图像 → 动态视频 + 声音的高质量联合生成。

来自主题: AI技术研报
7691 点击    2025-05-29 14:20
速递|破解3D生成取代CAD?SpAItial获1300万美金种子资金,前Synthesia联创集结Meta谷歌豪华技术团队

速递|破解3D生成取代CAD?SpAItial获1300万美金种子资金,前Synthesia联创集结Meta谷歌豪华技术团队

速递|破解3D生成取代CAD?SpAItial获1300万美金种子资金,前Synthesia联创集结Meta谷歌豪华技术团队

从OpenAI 的 4o 到 Stable Diffusion,能够根据文本提示生成逼真图像的 AI 基础模型如今已比比皆是。相比之下,能够仅凭文本提示就生成完整、连贯的 3D 在线环境的基础模型才刚刚崭露头角。

来自主题: AI资讯
5940 点击    2025-05-28 15:13
与Gemini Diffusion共振!首个扩散式「发散思维链」来了

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

近年来,思维链在大模型训练和推理中愈发重要。近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。

来自主题: AI技术研报
6000 点击    2025-05-27 13:21
19岁少年「破解」谷歌新AI?每秒1479 token,扩散再战GPT!

19岁少年「破解」谷歌新AI?每秒1479 token,扩散再战GPT!

19岁少年「破解」谷歌新AI?每秒1479 token,扩散再战GPT!

年仅19岁少年,自称破解了谷歌最快的语言模型Gemini Diffusion,引爆社交平台。真相扑朔迷离,但有一点毫无疑问:谷歌I/O大会的「黑马」,比GPT快10倍的速度、媲美人类程序员的代码能力,正在掀起一场NLP范式大洗牌。

来自主题: AI资讯
7768 点击    2025-05-24 19:28