
统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍
统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务,同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而,由于输入不匹配和 VAE 潜在空间的使用,将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。
最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务,同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而,由于输入不匹配和 VAE 潜在空间的使用,将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。
7B小模型+3.8万条训练数据,就能让音频理解和推断评测基准MMAU榜单王座易主?
AI诈骗暴增3000%
这两天不知道为啥,有好几个朋友问我,为啥不把公众号文章做出一个知识库。
货物运营代理市场规模达260亿美元,作为货运代理,经纪人和承运商每天需要对接大量的供应商和零售商的信息,并进行针对性匹配和派单。这种简单重复的信息确认和录入工作大部分依靠人力完成,通过电话、短信、电子邮件和过时的软件解决方案拼凑经营业务,高昂的人力费用使得毛利不高的代理行业雪上加霜,加剧中小企业的压力。
Cursor 也学会「怠工」了?
NYT专栏作家Kevin Roose近期发文称,强人工智能要来,而人类尚未做好准备。当AI在数学奥赛中夺金,完成95%代码,深入到我们日常工作的每个角落时,人类真的做好迎接这个前所未有的技术革命了吗?
一首不因为音乐而火的歌。
AI搜索工具正席卷美国,近四分之一的人已抛弃传统搜索引擎。然而,最新研究揭露,这些工具在引用新闻时错误率高达60%,令人大跌眼镜。
国内首款全流程 AI 互动小说创作工具「谜境 Agent」于近日上线,该工具通过整合剧本生成、美术绘制、交互设计等模块,将传统需要 4-6 个月的开发周期压缩至 10 分钟内完成。
自由与好奇心是学术研究最宝贵的特质,正是对未知的执着探索,才能孕育改变世界的创新。
LMM在人类反馈下表现如何?新加坡国立大学华人团队提出InterFeedback框架,结果显示,最先进的LMM通过人类反馈纠正结果的比例不到50%!
下班回家后你正深陷于一部两小时的综艺节目中,渴望找到那些让人捧腹的爆笑片段,却如同大海捞针。或者,在紧张刺激的足球赛中,你渴望捕捉到那决定性的绝杀瞬间,但传统 AI 视频处理技术效率低下,且模型缺乏泛化能力。为解决这些问题,香港中文大学(深圳)唐晓莹课题组联合腾讯 PCG 发布 TRACE 技术,通过因果事件建模为视频理解大模型提供精准的时间定位能力。
端侧设备落地是今年最值得期待的行业故事。
上周,我发了一篇关于 AI 对孩子教育影响的文章,本以为AI是未来,直到我看到美国家长的反应,突然有点动摇…没想到引起了很多讨论。在我看来,AI 就像一把刀——关键在于怎么用。如果我们能把 AI 变成一个得力助手,让它帮我们省时间、提升效率,那不就相当于多了一个“教育搭子”吗?
当知识生产开始麦当劳化
无需物理引擎,单个模型也能实现“渲染+逆渲染”了!
一觉醒来,AI 应用变天了。
深夜,北京地区某住户王女士又一次被电话惊醒。电话那头传来甜美的女声:“您家孩子需要英语辅导吗?”她愤怒挂断,却发现这已经数不清是本周的第多少个骚扰电话。与王女士对话的并非真人,而是一台不知疲倦的AI机器人——这正是今年央视315晚会曝光的电销黑产最锋利的“武器”。
最近网上有不少案例分享,0基础的人通过AI编程,几个小时做了产品,然后稳稳的收入激增,确实挺让人羡慕,我自己也分享过一些案例,但毕竟只是道听途说,很多事情,需要自己试试才知道。而且只有自己真的去尝试了,遇到别人问及相关问题的时候,才能真的拿出靠谱的意见和建议,而不是仅凭道听途说就去胡乱点评。
AI诞生于硅谷、起势于水泥丛林。人们对情感的需求暴增,自然地,让AI+情感陪伴赛道火出天际,成为2024年下半年,创投行业为数不多的创新亮点。在数科星球DigitalPlanet所接触的众多企业中,他们纷纷将触角瞄向了“断舍离”的白领阶层,更有一部分人认为,出海是大势所趋。所以,众多AI出海的消息屡屡见诸报端。
如何用一小时完成3D游戏开发?「vibe coding」(氛围编程)让3D游戏制作变得轻松。无需编写代码,借助AI工具就能打造游戏,甚至还能盈利!从骑马大战飞龙的奇幻冒险,到水上摩托艇的惊险竞速,再到多人海盗船的探索之旅,Vide Coding的热潮正在席卷网络。
Neurobo(弈智交互)是一家位于上海的创业公司,获得前百度总裁、微软副总裁陆奇博士创办的奇绩创坛的投资。团队核心成员来自清华大学与日本筑波大学等海内外名校,致力于结合 LLM 与现实场景数据,让二次元用户可以将「谷子」变为随身相伴,随时触达的实体情感伴侣。
和DeepSeek等从大模型开始构建底层能力的AI公司不同,Manus AI是一家从day 1就只做AI应用的创业公司。
谷歌团队发现了全新Scaling Law!新方法DiLoCo被证明更好、更快、更强,可在多个数据中心训练越来越大的LLM。
百度文心大模型重磅更新,刚刚如期而至。
AI-Researcher是一个开源的科研智能体框架,它能从文献搜集一路包办至论文撰写,彻底改变了科研方式,让科研自动化触手可及。
语音恐怖谷是指在语音合成技术中,当 AI 合成语音接近人类的真实语音,但又存在细微的不自然或不完美之处时,会引发人类的不适感。
何恺明团队提出的去噪哈密顿网络(DHN),将哈密顿力学融入神经网络,突破传统局部时间步限制,还有独特去噪机制,在物理推理任务中表现卓越。
国产人形机器人,又上大分了。