AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
6小时复刻AI IMO金牌成果,蚂蚁多智能体新进展已开源

6小时复刻AI IMO金牌成果,蚂蚁多智能体新进展已开源

6小时复刻AI IMO金牌成果,蚂蚁多智能体新进展已开源

2025年的IMO,好戏不断。 7月19日,全世界顶尖大模型在2025年的IMO赛场上几乎全军覆没。时隔1天,OpenAI、DeepMind等顶尖实验室就在IMO 2025赛场斩获5/6题,震惊数学圈。

来自主题: AI资讯
6107 点击    2025-08-03 12:47
港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

现有的方法对大语言模型(LLM)「越狱」攻击评估存在误判和不一致问题。港科大团队提出了GuidedBench评估框架,通过为每个有害问题制定详细评分指南,显著降低了误判率,揭示了越狱攻击的真实成功率远低于此前估计,并为未来研究提供了更可靠的评估标准。

来自主题: AI技术研报
6161 点击    2025-08-02 13:15
Kubernetes环境中作业帮大模型服务流量调度优化实践

Kubernetes环境中作业帮大模型服务流量调度优化实践

Kubernetes环境中作业帮大模型服务流量调度优化实践

随着人工智能技术的快速发展,大语言模型在自然语言处理领域引发了深刻变革。大语言模型在实际应用中的使用越来越广泛,这些模型通常部署在云原生的基础设施上,需要复杂的流量管理机制以确保服务的稳定性、性能、可扩展性和成本效益。在 Kubernetes(K8S)这一容器编排标准中,现有的 Ingress 组件的流量转发机制提供了基于主机名和请求路径的基本流量路由功能。

来自主题: AI资讯
6434 点击    2025-08-02 13:04
多模态后训练反常识:长思维链SFT和RL的协同困境

多模态后训练反常识:长思维链SFT和RL的协同困境

多模态后训练反常识:长思维链SFT和RL的协同困境

在语言模型领域,长思维链监督微调(Long-CoT SFT)与强化学习(RL)的组合堪称黄金搭档 —— 先让模型学习思考模式,再用奖励机制优化输出,性能通常能实现叠加提升。

来自主题: AI技术研报
6458 点击    2025-08-02 12:49
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准

大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准

大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准

视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解力。

来自主题: AI技术研报
6288 点击    2025-08-02 12:43
你的Prompt已达性能极限?试试这个0成本的优化 | 马里兰大学最新

你的Prompt已达性能极限?试试这个0成本的优化 | 马里兰大学最新

你的Prompt已达性能极限?试试这个0成本的优化 | 马里兰大学最新

上下文学习(In-Context Learning, ICL)、few-shot,经常看我文章的朋友几乎没有人不知道这些概念,给模型几个例子(Demos),它就能更好地理解我们的意图。但问题来了,当您精心挑选了例子、优化了顺序,结果模型的表现还是像开“盲盒”一样时……有没有可能,问题出在一个我们谁都没太在意的地方,这些例子,到底应该放在Prompt的哪个位置?

来自主题: AI资讯
5774 点击    2025-08-02 12:37
思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

近期,随着OpenAI-o1/o3和Deepseek-R1的成功,基于强化学习的微调方法(R1-Style)在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现,但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报
6837 点击    2025-08-01 16:08
驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代

驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代

驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代

7 月 26 日,在 WAIC 2025 世界人工智能大会上,中国移动九天人工智能研究院全面开源九天结构化数据大模型 “数据 - 模型 - 测评” 三位一体的完整模型体系,包括了结构化数据体系、TReB 标准化测评框架、支持微调及推理全流程模型。

来自主题: AI资讯
5608 点击    2025-08-01 15:58
ACL'25最佳论文独家解读:大模型有「抗改造」基因,现有后训练范式失灵预警

ACL'25最佳论文独家解读:大模型有「抗改造」基因,现有后训练范式失灵预警

ACL'25最佳论文独家解读:大模型有「抗改造」基因,现有后训练范式失灵预警

尽管全球科技界正热烈庆祝 GPT-4、DeepSeek 等大模型展现出的惊艳能力,但一个根本性问题仍未被真正解决: 这些 AI 模型是否真正理解人类的指令与意图?

来自主题: AI技术研报
6259 点击    2025-08-01 12:27
首部法律LLM全景综述发布!双重视角分类法、技术进展与伦理治理

首部法律LLM全景综述发布!双重视角分类法、技术进展与伦理治理

首部法律LLM全景综述发布!双重视角分类法、技术进展与伦理治理

研究人员首次系统综述了大型语言模型(LLM)在法律领域的应用,提出创新的双重视角分类法,融合法律推理框架(经典的法律论证型式框架)与职业本体(律师/法官/当事人角色),统一梳理技术突破与伦理治理挑战。论文涵盖LLM在法律文本处理、知识整合、推理形式化方面的进展,并指出幻觉、可解释性缺失、跨法域适应等核心问题,为下一代法律人工智能奠定理论基础与实践路线图。

来自主题: AI资讯
6131 点击    2025-08-01 11:51