AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
原来Scaling Law还能被优化?Meta这招省token又提效

原来Scaling Law还能被优化?Meta这招省token又提效

原来Scaling Law还能被优化?Meta这招省token又提效

2017 年,一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭,其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后,AI 领域的发展更是进入了快车道。

来自主题: AI技术研报
5845 点击    2025-07-06 14:56
OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

三个前沿AI能融合成AGI吗?Sakana AI提出Multi-LLM AB-MCTS方法,整合o4-mini、Gemini-2.5-Pro与DeepSeek-R1-0528模型,在推理过程中动态协作,通过试错优化生成过程,有效融合群体AI智慧。

来自主题: AI技术研报
6935 点击    2025-07-06 13:06
华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025

华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025

华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025

大模型越来越大,通用能力越来越强,但一遇到数学、科学、逻辑这类复杂问题,还是常“翻车”。为破解这一痛点,华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林(Forest-of-Thought,FoT)。

来自主题: AI技术研报
6528 点击    2025-07-06 11:54
Karpathy提的“软件3.0”已过时,交互即智能才是未来 | 上交大&创智刘鹏飞

Karpathy提的“软件3.0”已过时,交互即智能才是未来 | 上交大&创智刘鹏飞

Karpathy提的“软件3.0”已过时,交互即智能才是未来 | 上交大&创智刘鹏飞

大神Karpathy提出“软件3.0”才两周,“软件3.5”已经诞生了?交互即智能。指AI不再是黑盒工具,而是透明的思维伙伴。用户可以在AI思考的任何节点进行干预,提供战略指导或纠正方向。

来自主题: AI资讯
5902 点击    2025-07-06 11:35
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷

邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷

邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷

播客、访谈、体育解说、新闻报道和电商直播中,语音对话已经无处不在。 当前的文本到语音(TTS)模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展,合成语音的自然度、清晰度和表现力都已显著提升,甚至接近真人水平。不过,由于缺乏整体的对话情境,这些 TTS 模型仍然无法合成高质量的对话语音。

来自主题: AI资讯
5879 点击    2025-07-06 11:25
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节

LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节

LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节

那问题来了:大型语言模型(LLM)虽然语言能力惊人,但它们在语义压缩方面能做出和人类一样的权衡吗?为探讨这一问题,图灵奖得主LeCun团队,提出了一种全新的信息论框架。该框架通过对比人类与LLM在语义压缩中的策略,揭示了两者在压缩效率与语义保真之间的根本差异:LLM偏向极致的统计压缩,而人类更重细节与语境。

来自主题: AI技术研报
5130 点击    2025-07-06 11:17
想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025

想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025

想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025

近年来,基础模型在具身智能领域展现出惊人的能力。通过离线模仿学习,这些具身智能模型掌握了多样化、复杂的操作技巧,能够完成抓取、搬运、放置等多种任务。

来自主题: AI资讯
6038 点击    2025-07-06 11:09
华为盘古大模型“抄袭”阿里Qwen?官方回应

华为盘古大模型“抄袭”阿里Qwen?官方回应

华为盘古大模型“抄袭”阿里Qwen?官方回应

7月5日下午16:59分,隶属于华为的负责开发盘古大模型的诺亚方舟实验室发布声明对于“抄袭”指控进行了官方回应。诺亚方舟实验室表示,盘古Pro MoE开源模型是基于昇腾硬件平台开发、训练的基础大模型,并非基于其他厂商模型增量训练而来,在架构设计、技术特性等方面做了关键创新,是全球首个面向昇腾硬件平台设计的同规格混合专家模型

来自主题: AI资讯
8426 点击    2025-07-06 11:06
GitHub上5.4k+Star爆火,构建生产级Agent 的12因素

GitHub上5.4k+Star爆火,构建生产级Agent 的12因素

GitHub上5.4k+Star爆火,构建生产级Agent 的12因素

这是一篇在GitHub上获得5.3k+星标的重要技术文档,其中蕴含的洞察值得每一位AI产品开发者深度思考。

来自主题: AI技术研报
5939 点击    2025-07-06 11:04
数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免

数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免

数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免

大模型数学能力骤降,“罪魁祸首”是猫猫?只需在问题后加一句:有趣的事实是,猫一生绝大多数时间都在睡觉。

来自主题: AI资讯
5834 点击    2025-07-05 20:35