AI资讯新闻榜单内容搜索-

打破RLHF瓶颈，克服奖励欺骗！Meta发布全新后训练方式CGPO，编程水平直升5%

CGPO框架通过混合评审机制和约束优化器，有效解决了RLHF在多任务学习中的奖励欺骗和多目标优化问题，显著提升了语言模型在多任务环境中的表现。CGPO的设计为未来多任务学习提供了新的优化路径，有望进一步提升大型语言模型的效能和稳定性。

来自主题: AI技术研报

4645 点击 2024-11-01 14:54

吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题

强化学习（RL）对大模型复杂推理能力提升有关键作用，然而，RL 复杂的计算流程以及现有系统局限性，也给训练和部署带来了挑战。

来自主题: AI技术研报

5441 点击 2024-11-01 14:50

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090玩转旗舰新模型

大模型热，企业落地难？就在刚刚，百川智能推出「1+3」产品矩阵，一站式解决大模型商业化难题。「系列优质通用数据+领域增强训练工具链」，仅需10分钟就能让企业自主成为模型定制增强专家，实现行业最佳的多场景可用率。

来自主题: AI资讯

5560 点击 2024-11-01 14:40

Veeva中国总经理丁晓枫：启动3.0中国战略，打造商业化全数字生态闭环

2024年10月24日，全球生命科学行业云软件领导者Veeva Systems (NYSE: VEEV) 在上海举“2024 Veeva中国商务峰会”，活动现场，Veeva宣布了其基于中国市场洞察的一系列业务进展。

来自主题: AI资讯

4031 点击 2024-11-01 14:35

刚刚！ChatGPT正式成为AI搜索，免费可用

时代变了，最强 AI 加持搜索引擎问世，没有广告。

来自主题: AI资讯

10338 点击 2024-11-01 13:12

NeurIPS 2024 | 机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

对于人类而言，一旦掌握了 “打开瓶盖” 的动作，面对 “拧紧螺丝” 这样的任务通常也能游刃有余，因为这两者依赖于相似的手部动作。然而，对于机器人来说，即使是这样看似简单的任务转换依然充满挑战。例如，换成另一种类型的瓶盖，机器人可能无法成功打开。这表明，目前的机器人方法尚未充分让模型学习到任务的内在执行逻辑，而只是单纯的依赖于数据拟合。

来自主题: AI技术研报

8277 点击 2024-11-01 13:05