
DeepSeek上脸实测:AR眼镜实时翻译老黄GTC演讲,完了还帮我划重点
DeepSeek上脸实测:AR眼镜实时翻译老黄GTC演讲,完了还帮我划重点DeepSeek、通义千问等大模型 + AR眼镜,打开GTC老黄演讲的姿势,可以是这样:
DeepSeek、通义千问等大模型 + AR眼镜,打开GTC老黄演讲的姿势,可以是这样:
近日,前字节跳动 AI 技术专家解浚源在朋友圈官宣加入具身智能创业公司千寻智能,并发布了千寻智能最新披露的 Spirit v1 VLA 演示视频。据悉,解浚源目前任职千寻智能具身智能部负责人,全面负责具身大模型的研发工作。
RAG工作发展时间线(2020年至今)。展示了RAG相关研究的三个主要领域:基础(包括RAG学习和RAG框架)、进阶和评估。关键的语言模型(GPT-3、GPT-4等)发展节点标注在时间线上。
今天,百图生科宣布开源其领先的xTrimo V2中的蛋白质语言模型xTrimoPGLM,7个不同参数量的模型均已发布在huggingface和github,供全球用户自由获取和使用。xTrimoPGLM是全球首个千亿参数的蛋白质语言模型,性能超越了ESM-2、ProGen2等此前业界领先的蛋白质模型,并在药物分子设计和优化、抗体工程与疫苗开发、酶工程和生物催化剂设计等领域展现出广泛应用前景。
在GTC2025大会上,NVIDIA依旧延续着“算力的故事”。如果AI的发展依旧遵循着scaling law(规模定律),那么这个故事还能继续讲下去。
随着硅基流动的 SiliconCloud 等平台上线 DeepSeek-R1,市面上出现了不少测试各大厂商 API 服务的评测文章及反馈,不过,从我们收到的不少内容及反馈来看,其中的对比测试方式多有漏洞,内容质量参差不齐。
Anthropic终于为Claude解锁了网络搜索功能,这一姗姗来迟的升级让它从「数据截止」的限制中解放出来,网友泪目欢呼雀跃!现在,Claude不仅能实时获取网络资讯,还能在回答中附上来源,实用性大幅提升。
全面评估大模型生成式写作能力的基准来了!
不是四折叠,余承东刚刚揭秘了华为“想不到的新产品”—— 16:10“阔形屏”折叠手机Pura X!
这是SemiAnalysis最新的一篇GTC大会的分析文章,难得Dylan这么勤快,在GTC放发布后,就立马出了这篇长达31页的分析报告。
单视角三维场景重建一直是计算机视觉领域中的核心挑战之一,尤其在捕捉高保真室外场景细节时,如何确保结构一致性和几何精度显得尤为困难。
测一测现有AI生成视频是否符合物理运动规律!
大家好,最近感觉有点AI编程搞产品上瘾了😂。这次主要想和大家分享第二个小产品 art4kid.com 过程中遇到的挑战和收获。这个产品也是通过AI编程完成的,我所做的主要就是把握方向,发现问题,让AI思考问题发生原因然后解决问题,还有提供一些视觉。
任意一张立绘,就可以生成可拆分3D角色!
老黄在GTC 2025大会上,再次亮出了英伟达未来GPU路线图。随着推理token的暴增,AI计算需要全新的范式,下一代BlackWell Ultra、Vera Rubin就是最强的回应。
就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。
一个超越DeepSeek GRPO的关键RL算法出现了!这个算法名为DAPO,字节、清华AIR联合实验室SIA Lab出品,现已开源。禹棋赢,01年生,本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年年中,他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。
前脚被谷歌点名感谢空间训练平台,后脚又开源了空间模型!杭州六小龙群核科技发了一个空间理解开源模型SpatialLM,让机器人刷一段视频,就能理解物理世界的几何关系。结合之前发布的空间智能训练平台SpatialVerse,群核科技要为机器人提供从空间认知到行动交互的训练闭环。机器人也被「卷」到要上学了。
波士顿动力的Atlas机器人又双叒叕来了!从最初的液压「电缆尾巴」到现在全电动AI增强版,这个机器人不仅会翻跟头、跳街舞,还学会了倒立侧翻,甚至开始「进厂打工」搬零件。动作捕捉技术与强化学习的加持,让Atlas的动作越来越像人类,而它的目标也从炫技转向实用。
3D打印的世界在不断变化,人工智能(AI)的发展发挥着越来越重要的作用。特别是,通过人工智能生成3D模型开辟了新的可能性和潜力。在本文中,将介绍22种创新服务,它们在这一领域发挥着开创性的作用。
比DeepSeek-R1贵270倍,OpenAI史上最贵模型来了!
当我们看到一张猫咪照片时,大脑自然就能识别「这是一只猫」。但对计算机来说,它看到的是一个巨大的数字矩阵 —— 假设是一张 1000×1000 像素的彩色图片,实际上是一个包含 300 万个数字的数据集(1000×1000×3 个颜色通道)。每个数字代表一个像素点的颜色深浅,从 0 到 255。
近年来,生成模型在内容生成(AIGC)领域蓬勃发展,同时也逐渐引起了在智能决策中的应用关注。
这下特效视频和机器人实拍真的傻傻分不清楚了…
对面有个人向你缓缓抬起手,你会怎么回应呢?握手,还是挥手致意?
记得大概在十年前,报纸、电视新闻上都有在呼吁“不要做低头族”,一直低头玩手机影响健康,还存在安全隐患。但时到如今大家都习以为常,甚至离不开它。出门可以忘带钥匙、身份证,但一定不可能忘带手机。为了大家更方便的玩手机,很多地区可能隔不到一百米就有一个共享充电宝。
如果你让当今的 LLM 给你生成一个创意时钟设计,使用提示词「a creative time display」,它可能会给出这样的结果:
DeepSeek 掀翻了国内大模型领域原本搭好的台,各个大厂都在重新找位置,腾讯选择了通过一系列「闪电战」式的部署,展示战略决心。
阿里全面转向“AI化”
EgoNormia基准可以评估视觉语言模型在物理社会规范理解方面能力,从结果上看,当前最先进的模型在规范推理方面仍远不如人类,主要问题在于规范合理性和优先级判断上的不足。