“AI版LeCun”自己讲解论文,自我进化智能体框架生成精美演讲视频
“AI版LeCun”自己讲解论文,自我进化智能体框架生成精美演讲视频AI自己讲明白论文,还能生成更美观的幻灯片。加州大学圣塔芭芭拉(UCSB)与圣克鲁兹(UCSC)的研究者提出EvoPresent,一个能够自我进化的学术演讲智能体框架,让AI不仅能“讲清楚论文”,还能“讲得好看”。
AI自己讲明白论文,还能生成更美观的幻灯片。加州大学圣塔芭芭拉(UCSB)与圣克鲁兹(UCSC)的研究者提出EvoPresent,一个能够自我进化的学术演讲智能体框架,让AI不仅能“讲清楚论文”,还能“讲得好看”。
近期,我们独家观察到,国内两家科技巨头——阿里巴巴和字节跳动——旗下的AI助手通义千问(Qwen)和豆包(Doubao),同时开始内测“记忆功能”。此举被广泛视为对标行业领头羊OpenAI的ChatGPT,标志着国产AI助手正从“即时问答工具”向“长期私人助理”的角色加速演进。
他们决定,把liblib升级到2.0,有新的品牌,有新的logo,有新的界面,有新的功能。liblib,国内最著名的模型开源社区,也是国内之前最大SD生态开源社区没有之一。但是这些东西都不重要。
马斯克的xAI也入局世界模型了!据《金融时报》(FT)报道,为了增加这场“世界模型大混战”的赢面,今年夏天,xAI已经从英伟达挖来了多名资深研究员来助阵。另一边,在悄然下场世界模型后,马斯克几天前又在𝕏上再次重申了去年定下的那个“小目标”——
InfLLM-V2是一种可高效处理长文本的稀疏注意力模型,仅需少量长文本数据即可训练,且性能接近传统稠密模型。通过动态切换短长文本处理模式,显著提升长上下文任务的效率与质量。从短到长低成本「无缝切换」,预填充与解码双阶段加速,释放长上下文的真正生产力。
吴恩达又出新课了,这次的主题是—Agentic AI。 在新课中,吴恩达将Agentic工作流的开发沉淀为四大核心设计模式:反思、工具、规划与协作,并首次强调评估与误差分析才是智能体开发的决定性能力:
David Fajgenbaum,这位多次被命运击倒却又以勇气与智慧改写人生的医生,用科学、信念与不屈,将自己的奇迹求生化为拯救他人的毕生使命。他创立的Every Cure,借助AI在7500万种药物与疾病的可能组合中挖掘生命曙光,让无数罕见病与绝症患者重燃希望。
这是《窄播Weekly》的第68期,本期我们关注的商业动态是:OpenAI在今年的DevDay上更清晰地向我们展示了如何构建一个AI时代的超级系统。就像OpenAI的CEO山姆·奥特曼在一档播客节目中所说,ChatGPT上线之后经历了两个关键的「惊喜」时刻,
工业AI生成式设计软件与方案供应商「设序科技」近日完成数千万元Pre B轮融资,投资方为涌铧投资和广发信德,星涵资本担任长期财务顾问。过去一年,公司已连续完成三轮融资,累计金额超亿元。融资资金将用于研发投入和市场推广,包括海外市场推广。
硅谷顶尖风投a16z近日发布AI应用支出报告,揭开了初创公司资金的真正去向。
3D 生成正从纯虚拟走向物理真实,现有的 3D 生成方法主要侧重于几何结构与纹理信息,而忽略了基于物理属性的建模。
国庆假期Sora 2的横空出世那叫一个吸睛,尤其是客串(Cameo)功能,直接把Sora拉到了“AI版抖音”的高度。
最近看到一个有趣的现象:很多人对AI生成的内容有一种本能的抗拒,觉得AI正在"污染"互联网,到处都是没有灵魂的机器文字。
构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人,是机器人学领域一个长期追逐的圣杯。近年来,随着大型语言模型(LLMs)和视觉语言模型(VLMs)的飞速发展,许多研究者将希望寄托于视觉 - 语言 - 动作(VLA)模型,期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。
在这一背景下,清华大学与生数科技(Shengshu AI)团队围绕桥类生成模型与音频超分任务展开系统研究,先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果:
在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化
大模型参数量飙升至千亿、万亿级,却陷入“规模越大,效率越低” 困境?中科院自动化所新研究给出破局方案——首次让MoE专家告别“静态孤立”,开启动态“组队学习”。
Gemini 3.0更近了!网友爆料称,谷歌下一代旗舰模型将在10月22日发布。一些拿到内测资格的开发者,放出了最全面的demo,Gemini 3.0能做到一次性直出网页、游戏、原创音乐等。前端开发,再也不需要人类。
在量子位智库的观察中,AI知识助手remio正在尝试这一方向。remio主打无感和自动化,致力于变成记忆和用户同频的第二大脑。主打能够在用户无感知的情况下,实时、自动化地采集用户所需管理的信息,为用户创造更加轻松顺畅的使用体验。
国际奥赛又一块金牌,被AI夺下了!在国际天文与天体物理奥赛(IOAA)中,GPT-5和Gemini 2.5 Pro完胜人类选手,在理论和数据分析测试中,拿下了最高分。在理论考试上,Gemini 2.5 Pro总体得分85.6%,GPT-5总体得分84.2%;
这不是科幻,这是 Anything 正在发生的真实故事。这家刚刚完成 1100 万美元融资、估值达到 1 亿美元的创业公司,在上线两周内就实现了 200 万美元的年度经常性收入。更让人震惊的是,他们的用户已经开始用这个平台做出真正赚钱的生意。我深入研究了这家公司后,发现他们不只是又一个 AI 编程工具,而是在彻底改变软件开发的游戏规则。
AI竟然画不好一张 “准确” 的图表?AI生图标杆如FLUX.1、GPT-Image,已经能生成媲美摄影大片的自然图像,却在柱状图、函数图这类结构化图像上频频出错,要么逻辑混乱、数据错误,要么就是标签错位。
图片来源:David AI Labs David AI Labs 这家初创公司通过出售音频数据集来帮助训练人工智能模型,近期在新一轮融资中从投资者处筹集了 5000 万美元——这表明为 AI 开发提供
如果你觉得离谱,那说明你还没有受骗,但架不住有人已经被骗了。BBC 的一则报道里,就真的有人被骗到:两位游客满心期待地奔赴秘鲁安第斯山中的「圣胡曼塔伊峡谷」,花了 160 美元车费,长途跋涉,来到了偏远山区地带,然后发现——
任少卿的头发很有辨识度,浓密、微卷,刘海盖住额头。走进会议室,第一次见他的人把他当成了实习生,知道身份后调侃说,只有在 AI 创业公司才能看到这么年轻的技术 leader。
本来这个国庆我真的想好好休息一下,但是放假之前写完那篇假期产品推荐之后,微信里就一直有人问我,能不能写一篇豆包的P图玩法教程。。。 一是不知道怎么用,二是不知道怎么写提示词来处理图片。 正好抖音上豆包
既然后训练这么重要,那么作为初学者,应该掌握哪些知识?大家不妨看看这篇博客《Post-training 101》,可以很好的入门 LLM 后训练相关知识。从对下一个 token 预测过渡到指令跟随; 监督微调(SFT) 基本原理,包括数据集构建与损失函数设计;
风雨飘摇中的Meta,于昨天发布了一篇重量级论文,提出了一种被称作「早期经验」(Early Experience)的全新范式,让AI智能体「无师自通」,为突破强化学习瓶颈提供了一种新思路。
当大语言模型生成海量数据时,数据存储的难题也随之而来。对此,华盛顿大学(UW)SyFI实验室的研究者们提出了一个创新的解决方案:LLMc,即利用大型语言模型自身进行无损文本压缩的引擎。
那个拒绝了小扎15亿美元薪酬包的机器学习大神,还是加入Meta了。OpenAI前CTO Mira Murati创业公司Thinking Machines Lab证实,联创、首席架构师Andrew Tulloch已经离职去了Meta。