
Agent-to-Sim:从日常视频学习并模拟三维代理的交互行为
Agent-to-Sim:从日常视频学习并模拟三维代理的交互行为Agent-to-Sim (ATS) 是一个创新的三维模拟系统,能够从日常视频集合中学习三维代理的交互行为模型,由 Meta Codec Avatar 实验室主导研发。
Agent-to-Sim (ATS) 是一个创新的三维模拟系统,能够从日常视频集合中学习三维代理的交互行为模型,由 Meta Codec Avatar 实验室主导研发。
OmniParser 是由微软研究院提出的一个创新性工具,旨在通过解析用户界面截图来增强基于视觉的图形用户界面(GUI)代理的性能。
来自华东师范大学、南洋理工和中科院等高校的联合研究团队提出了一种新颖的人工智能教育框架“场景-对象-评估”(SOE),旨在利用大型语言模型(LLMs)构建能够模拟人类学生行为和个体差异的虚拟学生代理(LVSA)。
在 Reddit AMA中,OpenAI 首席执行官萨姆·奥特曼承认,计算能力不足是阻碍公司频繁推出产品的一个主要因素。
NotebookLM是谷歌开发的一款人工智能驱动的研究和写作工具,上传一个源文件,它会为用户生成一个音频概述或播客。这款产品的爆火很大一部分原因是简单的一键式体验,研发人员将交互按钮设计得十分简洁有趣,吸引更多用户尝试。
全球AI驱动的旅游市场正处于快速增长阶段,预计市场规模将从2023年的1,317亿美元增至2033年的29,037亿美元,年均增长率达到36.25%。
OpenAI 2024年开发者大会第二场(伦敦场)刚结束。 10月初在旧金山举办了第一场 OpenAI 开发者大会,但这次没有像上一场放出很多花活,这次开始走剧透局了!
移动任务自动化利用AI精准捕捉并解析人类意图,进而在移动设备(手机、平板电脑、车机终端)上高效执行多样化任务,为那些因认知局限、身体条件限制或身处特殊情境下的用户提供前所未有的便捷与支持。
登上油管热榜,吸引50万网友围观,波士顿动力人形机器人又放大招了—— 无远程遥控(Fully Autonomous),Atlas可完全自主打工了。
当一句话就能变成一幅画,AI绘画从专业圈子火到了普通人中。
国产大模型首次在国际最具挑战的“大模型竞技场”榜单上超过GPT-4o(5月版本),当零一万物的名字紧跟在OpenAI、Google之后,李开复却如是坦言。
10 月 31 日,以色列 AI 游戏视频生成公司 Decart 宣布获得红杉美国领投的 2100 万美元种子轮融资。
已与多家国内外头部主机厂、Tier1供应商、具身智能公司签约
AI coding 是模型推理能力增加之后的下一个竞争高地,除了模型厂商、AI Labs 之外,这个领域的参与者也有着 Cursor 这样的初创团队。
AI手机,在等一个“王炸”
一个简单但具有挑战性的基准
10 月 25 日, RTE 年度场景 Showcase 暨第四届 RTE 创新大赛,Founder Park 作为核心生态合作伙伴应邀出席。
传闻证实,微软机器学习理论万引大佬,官宣跳槽加入OpenAI。
如今AI渗透社会生活已经是大势所趋,抵制几乎没有任何意义。
近年来,大语言模型(Large Language Models, LLMs)的研究取得了重大进展,并对各个领域产生了深远影响。然而,LLMs的卓越性能来源于海量数据的大规模训练,这导致LLMs的训练成本明显高于传统模型。
小米OV悉数入局,人人都爱AI长焦?
上周Anthropic发布了Claude 3.5 Sonnet的升级,让AI助手能够通过"电脑使用"功能直接与计算机交互。
谷歌地图引入AI功能,可以回答用户通过输入的描述性问题,并且提示用户搜索某些地点,同时AI还会给出对应地点的相关信息和评价。
DeepMind 公布其正在开发一套创新的音频生成技术细节,也就是NotebookLM背后使用的语音技术。使 AI 能够生成更加自然的对话和高质量的音频。这些技术不仅提升了语音助手的交互性,还帮助多种应用在语音合成和对话生成上取得更大进展。
在与 AI 及 AI 编程相关的论坛中,我经常看到经验丰富的软件开发人员讨论像 Cursor 这样的编程工具是否有价值,是否值得订阅。
自去年底以来,时序预测领域正在经历重大转型,从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模型」。
个性化精品数字人(Personalized Talking Face Generation)强调合成的数字人视频在感官上与真人具有极高的相似性(不管是说话人的外表还是神态)。
大模型固然性能强大,但限制也颇多。如果想在端侧塞进 405B 这种级别的大模型,那真是小庙供不起大菩萨。近段时间,小模型正在逐渐赢得人们更多关注。这一趋势不仅出现在语言模型领域,也出现在了机器人领域。
前几天在 Hugging Face 文本转图像排行榜上排名第一的 red_panda,是一个名为 Recraft V3 的模型,由 AI 初创公司 Recraft 提供。 Recraft V3 以 1172 的 ELO 评分位居第一,超越了 Midjourney、OpenAI 和其他公司的模型。
波士顿动力Atlas进厂打工,不靠远程操控,转身动作像惊悚电影。 波士顿动力的人形机器人,进厂了。