大模型价格战:大厂烧钱狂飙,小厂如何抉择
大模型价格战:大厂烧钱狂飙,小厂如何抉择经济观察报注意到,目前降低的只是调用大模型应用程序编程接口(API)的费用。与这一费用相比,客户使用云服务后,付费环节更多、付费额度更高。
搜索
经济观察报注意到,目前降低的只是调用大模型应用程序编程接口(API)的费用。与这一费用相比,客户使用云服务后,付费环节更多、付费额度更高。
比斯坦福DPO(直接偏好优化)更简单的RLHF平替来了,来自陈丹琦团队。 该方式在多项测试中性能都远超DPO,还能让8B模型战胜Claude 3的超大杯Opus。 而且与DPO相比,训练时间和GPU消耗也都大幅减少。
当前,多模态大模型 (MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式Groma
TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期致力于深度学习、多模态、计算机视觉等研究领域。
Jason Wei 是思维链提出者,并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 进行工作。
不管你来自哪个城市,相信在你的记忆中,都有自己的「家乡话」:吴语柔软细腻、关中方言质朴厚重、四川方言幽默诙谐、粤语古雅潇洒…… 某种意义上说,方言不只是一种语言习惯,也是一种情感连接、一种文化认同。我们「上网冲浪」遇到的新鲜词汇中,有不少就是来自各地方言。当然,有些时候,方言也是一种交流「壁垒」。
最近美国众议院通过的这项议案,对在美从事AI工作的个人施加了更加严格的限制。如果法案通过,在美从事AI工作的中国人,或将受到影响。
GPT-4在为人类选股时,表现竟然超越了大部分人类分析师,和针对金融训练的专业模型?在没有任何上下文的情况下,它们直接就成功分析了财务报表,这一发现让许多业内大咖震惊了。然而好景不长,有AI大牛指出研究中的bug:之所以会这样,很可能是训练数据被污染了。
身处全球科技创新中心的硅谷,AI产业生态已经进化到什么程度?投资者们的钱,又砸向何处?
自 5 月 6 日 DeepSeek 提出降价、实现百万 Tokens 输入 1 元开始,字节、智谱、阿里、百度、讯飞、腾讯等也先后加入到降价浪潮中。到 5 月 22 日,ERNIE Speed、ERNIE Lite、讯飞星火 Lite、混元-lite 模型等均已实现限定条件下免费。