AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?

来自主题: AI技术研报
6481 点击    2025-06-10 16:18
比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临

比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临

比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临

王劲,香港大学计算机系二年级博士生,导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等,有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。

来自主题: AI技术研报
7307 点击    2025-06-10 15:02
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。

来自主题: AI技术研报
6287 点击    2025-06-10 14:45
60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了

60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了

60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了

让推理模型针对风险指令生成了安全输出,表象下藏着认知危机: 即使生成合规答案,超60%的案例中模型并未真正理解风险。

来自主题: AI技术研报
4956 点击    2025-06-10 11:00
3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

Time-R1通过三阶段强化学习提升模型的时间推理能力,其核心是动态奖励机制,根据任务难度和训练进程调整奖励,引导模型逐步提升性能,最终使3B小模型实现全面时间推理能力,超越671B模型。

来自主题: AI技术研报
6150 点击    2025-06-09 15:54