
DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成
DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成在多模态AI领域,基于预训练视觉编码器与MLLM的方法(如LLaVA系列)在视觉理解任务上展现出卓越性能。
在多模态AI领域,基于预训练视觉编码器与MLLM的方法(如LLaVA系列)在视觉理解任务上展现出卓越性能。
当你正在观看一部紧张刺激的动作电影,忽然好奇: “那个角色到底是在哪一集说的那句话?”
今天,如果你身边有这样一个对话大模型,它就像你身边的一个朋友,快言快语,风趣幽默,既会比喻,又会自嘲,偶尔跟你唱反调,你跟它的聊天欲望会不会更强一些呢?
谷歌和OpenAI又杠上了。
时隔5年,巴黎圣母院终于完成修复,将在12月7日重新开放。在这场耗资数亿欧元的浩大工程中,3D建模等关键AI技术发挥了关键作用,让历经800多年沧桑的教堂与现代科技完美融合。
Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。
最近,Jim Fan参与的一项研究推出了自动化数据生成系统DexMimicGen。该系统可基于少量人类演示,合成类人机器人的灵巧手运动轨迹,解决了训练数据集的获取难题,而且还提升了实验中机器人的表现。
就在刚刚,微软公布了世界最大AI Agent生态系统:现在,已经有十万家企业通过Copilot Studio创建智能体了。
人工智能虽然其提供了广泛的信息,却缺乏解决复杂问题所需的深入、结构化的推理能力,同时还存幻觉的局限。形式逻辑和相关数学工具为 AGI 的逻辑推理能力提供了必要的理论基础和技术支撑。
Teleo 自称是一家建筑机器人初创公司,但它的使命远不止于自动化挖掘机和拖拉机等重型设备。如今,Teleo 的改装机械使其客户能够半自主地操作现有车队。在未来,这家初创公司将其收集的数据视为机器人行业实现“ChatGPT 时刻”的关键推动力。
根据一份 SEC 文件 Crusoe Energe ,一家正在建设数据中心的初创公司,据报道将租赁给甲骨文、微软和 OpenAI,正在筹集 8.18 亿美元。
大自然擅长设计蛋白质。科学家甚至更擅长,人工智能(AI)有望帮助人类多次实现定向蛋白质进化。
据 TechCrunch 报道,智能戒指制造商 Oura 宣布于周二获得了来自血糖设备制造商 Dexcom 的 7500 万美元投资。这笔投资标志着 Oura 的 D 轮融资,使公司的估值超过 50 亿美元。
Scaling Law撞墙,扩展语言智能体的推理时计算实在太难了!破局之道,竟是使用LLM作为世界模型?OSU华人团队发现,使用GPT-4o作为世界模型来支持复杂环境中的规划,潜力巨大。
周一,Perplexity又放出了一个大招,宣布推出会员购物功能“Buy with Pro”。
千帆社区开发者黄定骅现身解读参加「千帆AppBuilder-智能硬件AIOT创意赛第一期」的心路历程。
去年夏天,法国 AI 初创公司 H 在尚未发布任何产品的情况下,宣布完成了惊人的 2.2 亿美元种子轮融资,引发行业轰动。
研究问题:这篇文章研究了如何在基于文本的在线同伴支持平台中,通过人工智能(AI)与人类协作,提高同伴之间的同理心对话质量。
Copilot 正成为 AI 代码产品的主力军。
今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。
近日,DeepMind 团队将水印技术和投机采样(speculative sampling)结合,在为大语言模型加入水印的同时,提升其推理效率,降低推理成本,因此适合用于大规模生产环境。
李飞飞谈到的空间智能,被这家中国独角兽补上关键一环。
今天凌晨,新晋诺贝尔化学奖得主、DeepMind 创始人哈萨比斯参与撰写的新论文登上了 Nature,主题是如何更准确地识别并纠正量子计算机内部的错误。
Powerful AI 预计会在 2026 年实现,足够强大的 AI 也能够将把一个世纪的科研进展压缩到 5-10 年实现(“Compressed 21st Century”),在他和 Lex Fridman 的最新对谈中,Dario 具体解释了自己对于 Powerful AI 可能带来的机会的理解,以及 scaling law、RL、Compute Use 等模型训练和产品的细节进行了分享
网上关于大模型的文章也很多,但是都不太容易看懂。小枣君今天试着写一篇,争取做到通俗易懂。
近日,Physical Intelligence和星尘智能宣告牵手,在数据和模型层展开合作,推进通用人工智能进入物理世界,共筑世界模型。
据了解,除中国工商银行、中国农业银行、中国银行、中国建设银行四大行外,交通银行、中原银行、浙商银行、北京农商行、上海银行、邮政储蓄银行都在今年用到了AI面试。
简单性可以扩展:PyTorch的成功源于其对研究人员简单性的关注,这种关注随后流向了生产环境。在Fireworks,他们在幕后拥抱了巨大的复杂性,以提供一个简单的API给开发者。这种方法让客户能够专注于创新和产品设计,而不是纠结于技术复杂性。
科幻影响AI想象与现实发展,揭示人类需求。
随着开源数据的日益丰富以及算力价格的持续下降,对于个人或小型机构而言,预训练一个小型的 LLM 已逐渐成为可能。开源中文预训练语言模型 Steel - LLM 就是一个典型案例,其模型参数量与数据量并非十分庞大,基本处于参数量为 B 级别、数据量为 T 级别的规模。