AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力

唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力

唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力

近年来,大语言模型(LLMs)展现出强大的语言理解与生成能力,推动了文本生成、代码生成、问答、翻译等任务的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已经深刻改变了人机交互方式。

来自主题: AI技术研报
5812 点击    2025-08-26 11:30
真实场景也能批量造「险」!VLM+扩散模型打造真实域自动驾驶极限测试

真实场景也能批量造「险」!VLM+扩散模型打造真实域自动驾驶极限测试

真实场景也能批量造「险」!VLM+扩散模型打造真实域自动驾驶极限测试

浙江大学与哈工大(深圳)联合推出SafeMVDrive,利用扩散模型结合VLM实现批量化多视角真实域的安全关键视频生成。该方法在保持画质与真实感的同时,显著增强了驾驶场景的危险性。生成的场景用于端到端自动驾驶系统的极限压测,可使得模型的碰撞率提升50倍。

来自主题: AI技术研报
5459 点击    2025-08-26 10:47
大模型能否为不同硬件平台生成高性能内核?南大、浙大提出跨平台内核生成评测框架MultiKernelBench

大模型能否为不同硬件平台生成高性能内核?南大、浙大提出跨平台内核生成评测框架MultiKernelBench

大模型能否为不同硬件平台生成高性能内核?南大、浙大提出跨平台内核生成评测框架MultiKernelBench

在深度学习模型的推理与训练过程中,绝大部分计算都依赖于底层计算内核(Kernel)来执行。计算内核是运行在硬件加速器(如 GPU、NPU、TPU)上的 “小型高性能程序”,它负责完成矩阵乘法、卷积、归一化等深度学习的核心算子运算。

来自主题: AI技术研报
6512 点击    2025-08-25 15:44
突破长视频生成瓶颈:南大、TeleAI推出全新AI生成范式MMPL,让创意一镜到底

突破长视频生成瓶颈:南大、TeleAI推出全新AI生成范式MMPL,让创意一镜到底

突破长视频生成瓶颈:南大、TeleAI推出全新AI生成范式MMPL,让创意一镜到底

你是否曾被 AI 生成视频的惊艳开场所吸引,却在几秒后失望于⾊彩漂移、画面模糊、节奏断裂? 当前 AI 长视频⽣成普遍⾯临 “高开低走 ” 的困境:前几秒惊艳夺⽬ ,之后却质量骤降、细节崩坏;更别提帧间串行生成导致的低效问题 —— 动辄数小时的等待,实时预览几乎难以企及。

来自主题: AI技术研报
5696 点击    2025-08-25 15:33
谷歌大脑之父首次坦白!茶水间闲聊引爆万亿帝国,AI自我突破触及门槛

谷歌大脑之父首次坦白!茶水间闲聊引爆万亿帝国,AI自我突破触及门槛

谷歌大脑之父首次坦白!茶水间闲聊引爆万亿帝国,AI自我突破触及门槛

刚刚,AI界传奇Jeff Dean深度访谈重磅放出!作为谷歌大脑奠基人、TensorFlow与TPU背后的关键推手,他亲述了这场神经网络革命的非凡历程。

来自主题: AI资讯
6081 点击    2025-08-25 11:29
仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

蚂蚁技术研究院联合浙江大学开源全新强化学习范式 Rubicon,通过构建业界最大规模的 10,000+ 条「评分标尺」,成功将强化学习的应用范围拓展至更广阔的主观任务领域。用 5000 样本即超越 671B 模型,让 AI 告别「机械味」。

来自主题: AI技术研报
5415 点击    2025-08-25 10:08
深度拆解|AI时代,真的能诞生一个人的十亿美元独角兽吗?

深度拆解|AI时代,真的能诞生一个人的十亿美元独角兽吗?

深度拆解|AI时代,真的能诞生一个人的十亿美元独角兽吗?

当OpenAI的CEO Sam Altman说出"未来几年将出现第一家由一个人创立的十亿美元公司"时,整个硅谷都震惊了。这听起来像天方夜谭,但仔细想想,这个预言可能正在成为现实。传统的创业模式——从想法到融资到招聘到产品开发——正在被一种全新的范式所颠覆。

来自主题: AI资讯
5569 点击    2025-08-24 12:57
LangChain 推出开源异步编码智能体 Open SWE

LangChain 推出开源异步编码智能体 Open SWE

LangChain 推出开源异步编码智能体 Open SWE

LangChain 发布了 Open SWE,这是一个完全开源的异步编码智能体,旨在在云端运行并处理复杂的软件开发任务。公司表示,Open SWE 代表了从实时“副驾驶”助手向更自主、长期运行的智能体的转变,这些智能体可以直接集成到开发人员现有的工作流程中。

来自主题: AI资讯
6396 点击    2025-08-24 12:27
第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率

第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率

第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率

近期多项研究 [1-2] 表明,即使是经过安全对齐的大语言模型,也可能在正常开发场景中无意间生成存在漏洞的代码,为后续被利用埋下隐患;而在恶意用户手中,这类模型还能显著加速恶意软件的构建与迭代,降低攻击门槛、缩短开发周期。

来自主题: AI技术研报
6148 点击    2025-08-24 12:24