贝索斯投资的Toloka:human-AI co-agency是什么?如何从简单的标注任务发展到专家判断和与智能体的共同执行

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
贝索斯投资的Toloka:human-AI co-agency是什么?如何从简单的标注任务发展到专家判断和与智能体的共同执行
6162点击    2025-06-19 11:51

贝索斯投资的Toloka:human-AI co-agency是什么?如何从简单的标注任务发展到专家判断和与智能体的共同执行


关于Toloka:


Toloka是一家专注于AI数据标注与模型评估的众包平台,成立于2014年,创始人Olga Megorskaya曾是俄罗斯科技巨头Yandex董事会成员。公司总部位于阿姆斯特丹,之前由AI基础设施公司Nebius Group控股。


创始团队


•创始人:Olga Megorskaya,曾任Yandex董事会成员


•2025年融资后,Shopify首席技术官Mikhail Parakhin加入Toloka董事会,担任执行主席


业务介绍


Toloka主要通过全球分布的人工专家和测试人员网络,提供高质量的AI数据标注、模型验证和评估服务,支持机器学习和生成式AI模型的训练与优化。其服务涵盖:


•图像分类、边界框、多边形标注、关键点标注等计算机视觉任务


•文本识别、情感分析、命名实体识别、搜索相关性评估等自然语言处理任务


•音频数据的转录与分类


•生成式AI的微调、强化学习中的人类反馈收集和模型评估


客户包括亚马逊、微软、Anthropic等科技巨头,服务范围覆盖超过50个知识领域和120个子领域,支持从大型企业到初创公司的多样化需求


融资情况


•2025年5月,Toloka获得由亚马逊创始人Jeff Bezos的私人投资公司Bezos Expeditions领投的7200万美元(约合6400万欧元)战略投资


•该轮融资还吸引了Shopify CTO Mikhail Parakhin的参与,他将加入董事会担任执行主席


•Nebius集团作为Toloka的长期战略合作伙伴和股东,继续支持公司发展,但不再拥有控股权


•融资资金将用于加速Toloka在美国市场的扩展,开发结合人类专业知识与自动化的混合AI解决方案


近期Toloka的创始人Olga Megorskaya对外分享了human-AI co-agency实践是什么样的?讨论了人类在AI系统中的角色如何从简单的标注任务发展到专家判断和与智能体的共同执行, 以及为什么这一转变改变了一切,甚至包括对人类的报酬方面。


具体探讨了:


•为什么“人类作为可调用函数”是错误的比喻—以及应该使用什么替代方案


•什么是真正的 co-agency?


•为什么有些数据任务现在需要几天而不是几秒—以及这对现代AI意味着什么?AI与人类协作中的最大瓶颈(且不是技术问题)


• AI基准测试的未来、合成数据的局限性,以及为什么教会人类不轻信AI很重要


•为什么AI代理需要人类教它们,在什么时候不该相信计划


以下为详细的对话分享:


Ksenia Se(主持人): 谢谢你今天的时间,Olga。你曾引用过《Humans as Tools? The Surprising Evolution of HITL in Agentic Workflows》中的一句话,谈到人类在环系统的演变。你引用的是:“人类是AI代理工具箱中的另一个可调用函数。”你是什么时候第一次意识到人类可以被看作这样— 作为可调用函数?


Olga Megorskaya: 是的,谢谢你,Ksenia。我记得你在描述机器学习行业中人类参与环节的发展时,基本上讲述了Toloka的故事,这让我印象非常深刻。很多年前我们刚开始创业时,目标是用训练数据支持传统的机器学习开发。那时,如果你还记得,已经是很久以前了—每个人都在为不同的用例构建自己的分类器。需要人工标注真实数据的任务相当简单:标注猫、狗、行人、汽车等等。但应用的种类非常多。

成千上万种不同的应用,每个都有自己的分类器,每个都需要数据集来训练。我们每天都有成千上万的人在成千上万个项目中进行任务标注。那时我们意识到了一个核心理念,这成为了Toloka哲学的基础:要实现人类真实数据生产的规模化,必须通过技术手段管理人类的劳动。就我个人而言,我并不太喜欢“将人类视为可调用函数”这个说法— 我更倾向于将其理解为以结构化、技术化的方式管理人类劳动,从而实现高质量数据的可扩展、可重复生产。


接着进入了下一个时代—基础模型时代,也就是 ChatGPT 和大模型的时代。突然间,仅仅作为一个人工标注者已经不够了,复杂性急剧上升,并且你需要深厚的领域专业知识。现在我们引入了物理学博士、高级软件工程师、法律专业人士— 真正的专家,作为事实的来源。然而,任务的多样性显著减少。行业不再训练成千上万个独立的分类器,而是转向训练少量的基础模型,这些模型可以针对各种下游任务进行微调或适应。现在,我们又进入了一个新的阶段:AI代理时代。有趣的是,这个阶段结合了前两个时代的挑战。一方面,任务变得更加复杂— 需要更多时间、更高精度和更多领域专业知识。曾几何时,平均一个标注任务只需30秒。我们甚至把这个数字硬编码进了我们的平台!现在,一个数据集中的单个项目花费专家工作的时间不寻常地达到10小时,甚至几天。


另一方面,变异性又在上升。AI代理现在在各种不同的场景中运行。不再仅仅是聊天机器人。我们正在处理多种模态、多样的界面以及数百种交互场景— 每一种都需要被测试、评估、红队攻击等等。因此,管理大规模人力投入的能力再次变得至关重要。将合适的人类专家匹配到合适的任务— 将每个人视为技能、可用性、成本的向量,成为构建成功数据管道的关键部分。从这个意义上说,人类和AI代理开始变得非常相似。两者都有技能。两者都有能力。两者都能与工具集成。两者都有成本。在Toloka,我们坚信人类与AI代理之间的这种混合协作。我们认为未来就在这个交汇点上。


Ksenia: 我还记得你曾经描绘过你在Toloka的创业旅程从基于众包的数据标注,到用于RLHF的人类偏好反馈,再到你刚才描述的细分领域的专家评估,现在迈向多代理团队中的co-agency。我的第一个问题是:什么是真正的co-agency?你能用大家都能理解的方式为我定义一下吗?


Olga:嗯,AI代理时代的主要区别,我会说体现在两点上。正如我提到的,其中之一是这种在大量界面上的交互。现在不再是与聊天机器人中的模型对话,而是将你的电脑作为与AI代理交互的界面,使用你日常使用的所有工具,与代理进行互动,等等。第二点是迭代。因此,用户与系统之间的多次迭代。我们现在处理的是从一个点开始,然后可以朝多个不同方向发展的长期轨迹。从收集训练数据和创建训练及生成系统的基准测试的角度来看,这实际上是我们目前所看到的与之前仅仅创建模型与用户之间对话阶段相比,最重要的区别。


Ksenia: 那么,在你的定义中,什么是co-agency


Olga:对我们来说,co-agency是指AI代理和人类代理一起解决同一个任务。有些事情是AI代理可以有很大帮助的。例如,有些方面AI代理比人类代理要强得多— 比如分解任务、制定任务计划、帮助人类验证他们是否真正按照计划的步骤执行。因为人类通常在遵循计划时会遇到问题, 这并不是因为他们懒惰什么的,而是因为我们作为人类,承载着更大的背景。基本上,我们所有的生活经验都是我们的背景。这就是为什么我们经常倾向于跳过某些步骤和阶段— 因为对我们来说它们是显而易见的,是直观的。但对一个人来说直观的东西,对另一个人来说可能并不直观。


当我们谈论可扩展的人类操作时,需要确保没有任何步骤被遗漏。这正是AI代理大力帮助人类代理的地方— 帮助他们以全新的视角审视任务执行的结果,帮助你发现一些潜在的错误和问题。这些是AI代理正在帮助我们的人类专家完成的任务。与此同时,也有一些事情是AI代理无法做到的。其中最重要的一点是,有时它们不知道自己不知道什么。具有讽刺意味的是,这正是我们目前正在培训专家的最重要技能:不盲目信任LLMs,能够识别AI代理制定的计划何时是错误的。比如说,70%的时候它是正确的,但有30%的时候是错误的。这是人类输入中最重要、最负责任的部分:“不,不,我在这里不听你的。我将运用我自己的智慧,以我自己的方式去做。”这实际上是整个系统信号的一个非常重要的来源。


Ksenia: 为了让人类更加信任自己!


Olga:是的,在某些情况下,是这样的。不幸的是, 这也是我们正在解决的任务的本质 - 你无法提前判断什么时候应该信任AI,什么时候不应该信任。而这正是判断的时刻,为系统带来了有用的信号。


Ksenia:真有趣。这是人类与AI真正协同工作的主要瓶颈吗,还是还有其他瓶颈?


Olga:这从根本上来说是最重要的瓶颈。除此之外,显然还有一些工程上的挑战迟早会被解决— 比如目前代理所拥有的集成数量。现在还没有多少代理可以自由使用电脑和其他一些应用程序。但有可能在一年后,这对大多数应用来说都不会是问题。


AI代理需要一些时间才能在更专业的领域和更小众的应用中解决更复杂的任务,比如 AutoCAD、工程应用程序,或者其他一些不在全球最受欢迎的前一百个应用中的东西。但我认为这些大多是工程上的限制。

我认为总会有一长串的使用场景,智能体还没有足够的工程化,在这些场景中,你需要与人类专家互动,才能最终完成并真正解决任务。


但在所有这些操作中,最重要的本质是决定何时信任代理,何时不信任代理而信任人类。这本质上是一个非常困难的问题。


Ksenia: 你们如何训练人们做到这一点?


Olga:这是我们很早以前就学会的事情。基本上,训练人和训练模型没有太大区别。人们通过示例学得最好。所以,你创建一个用例数据集,向人们展示,解释:这里是对的,那里是错的。在处理这些示例的过程中,人们训练自己的神经网络,开始理解其中的逻辑。我认为这仍然是最有效的教学方式。


Ksenia: 当我和PineconeEdo Liberty交谈时,他说在ChatGPT出现后,他们不得不基本上重写了整个向量数据库的架构。你们有没有遇到类似的问题?ChatGPT热潮之后,你们发生了什么变化?


Olga:对我们来说,ChatGPT本身在技术架构方面并没有带来太大变化。但我更认为,现在这些AI代理将从根本上改变服务的技术基础。


ChatGPT 的出现,对我们来说标志着一个重要的里程碑— 我们将重点从众包转向与高技能人类专家合作。这也带来了新的技术挑战,以及新的关注和投资领域。因为当你处理的系统需要引入某些领域的高技能专业人士时,你就需要更多地投入到技术上,去筛选和吸引这些人,评估并验证他们的专业水平,然后大量投入到社区建设和与这些专家建立信任上。这是业务中一个独立且非技术性的部分。


但我确实相信,当我们谈论那些将专业知识用于训练AI的人时,至关重要的是,这些人必须是真正活跃在各自领域的专业人士。如果你每天八小时、每周四十小时都只是作为AI训练师工作,你就无法为AI系统带来有价值的信号。你需要带来来自真实市场的真实见解。你需要紧跟你的专业领域的最新动态。这意味着我们需要能够吸引高技能、高薪的专业专家,并为他们提供一些能够激励他们参与这类任务的东西。


所以,我认为这就是ChatGPT出现后给我们的业务带来重大变化的原因。而现在,AI代理在此基础上,正在为人类与AI代理之间的协同代理带来新的技术基础。


Ksenia: 合成数据在你的数据集中扮演什么角色?


Olga:根据我们的业务性质,我们主要帮助客户处理大多是纯人类数据的数据集。由于我们与世界上一些技术最先进的公司合作,比如Anthropic、Amazon、Microsoft等,单纯创建合成数据是我们的客户自己能够完成的事情。


然而,总有一个界限,超过这个界限后,训练合成数据就无法获得实质性的收益。这时就需要人类的真实数据— 用来评估合成数据的质量并提供更高级别的信号。这就是为什么我们主要专注于纯人类数据。同时我们在提供这些数据集时会使用不同的技术方法。当你想确保数据集的多样性时,需要能够使用类似合成数据生成的方法。因此,你需要考虑数据集的分类法,以确保它涵盖所有各种主题。例如,如果你正在创建一个金融领域的训练集,你需要确保涵盖所有对模型学习金融知识至关重要的主要主题。这时,首先你会邀请一位人类专家来帮助定义分类体系。然后,你会合成或半合成地生成该数据的框架。接着,你会再次邀请人类专家根据这个框架来验证、更新和提升这些数据。


Ksenia: 那非常有趣。


Olga: 合成数据是一个非常强大的工具。所以显然很多公司都在使用它。与此同时,我认为业界普遍认为仅靠合成数据是不够的。你总是需要人工监督。至少你需要评估合成数据的质量。你还需要制定基准,以此来衡量你模型的质量。而且通常这些基准的制定需要大量人力,依赖人类专家的深入参与。


Ksenia: 人机真正的共同行动是通向AGI的路径,还是它本身就是AGI?你怎么看?


Olga:我不知道。对我来说,关于AGI的讨论,说实话,挺不太实际的。所以我更喜欢脚踏实地,从工程的角度来看我们能做什么。我绝对认为co-agency和混合系统,也就是人类和AI协作,是下一步。不管这是不是最后一步,老实说我不知道。我完全没有头绪。我个人不认为存在所谓的完全AGI。总会有一些需要依赖真实世界的知识,而这些知识只能从人类智慧中获得。


Ksenia: 这就是为什么我喜欢和实践者交流— 因为基本上每次我问关于AGI的问题,人们都会说,“嗯,我更倾向于从实际角度看待这个问题。”你构建了整个体系,你真的知道它在实际中是如何运作的。所以我觉得把这种观点表达出来非常有帮助。


Olga: 我认为这既有好处也有坏处,因为我们是在一步步发展,每一步看起来都很小。也许在这些小步骤中,有可能会失去整体的大局观。即使回顾Toloka 这十年来的发展,我们也能看到这是一条巨大的道路。但在每个时间点上,这些都是非常细微且非常实际的步骤。大概十年前,很难想象今天会是什么样子。


Ksenia: 这是一个著名的现象起初你称某样东西为奇迹,后来它就变成了软件。那么,当你展望未来几年五年后什么最让你兴奋,什么又是你的担忧?


Olga:嗯,再说回我们工程和日常实际工作中所处理的事情, 真正让我兴奋的是这种混合协作的技术部分。因为我认为它为引入和吸引来自各种不同领域的更多人类专家进入整个AI生产世界打开了许多机会。


现在,我认为我们仍然处于某种泡沫中。人类经济的许多部分基本上还没有被AI触及。我们需要一些时间,从帮助你安排日程的应用程序,或者比如说— 订票之类的应用,逐步迈向一些真正的硬核现实经济挑战。我认为这是一个非常有趣的机会。让我兴奋的是看到AI将如何解锁人类知识的新领域 — 超越办公室,超越我们的笔记本电脑,进入现实世界。我觉得这是一个令人激动的观察点。


Ksenia: 有什么担忧吗?


Olga:每一次激进的变革都会带来一些担忧。不过我倒不太愿意称之为担忧。我们正处于一个非常有趣的位置,实际上,很多事情掌握在我们手中,以确保这场技术演进——或者说革命,不管你怎么称呼— 能够顺利进行,系统也能得到有效控制。


美妙之处在于我们实际上拥有影响它的工具。我们正在进行大量与红队相关的任务,以确保AI代理以安全和负责任的方式工作。我们还在大量开发基准,这些基准基本上指导着模型的发展方向。我们实际上正在构建一个系统,允许来自不同专业的人类专家从训练人工智能中受益,并获得额外的收入机会。所以我们手中有机会帮助人们不再害怕被人工智能取代,而是看到AI生产中的新机会 — 例如为他们提供新的收入来源。


这就是为什么我认为我们在Toloka 处于一个非常有趣的位置,没有必要担心。相反,我们应该把这些努力掌握在自己手中,基本上按照我们希望的方式塑造未来。


Ksenia: 你们如何处理基准测试?因为你知道,最近关于基准测试的丑闻表明,很难完全依赖人类判断。它可能被欺骗,也可能被操控。那么你们是如何处理基准测试的?更广泛地说,你如何看待模型的基准测试?


Olga:我认为基准测试非常重要。我确实看到现在业界已经采纳了这个概念。因为,大约三年前,没人谈论过评估。两年前,大家都说我们需要一些评估和基准测试,但没人真正知道该怎么做。


发明一个新的基准测试是一项非常严肃的智力工作—因为你需要设计这个基准测试。你需要明白:你需要得到哪些问题的答案?这就是为什么设计基准测试是一项非常负责任且非常重要的工作。但公共基准测试的问题在于它们很快就会被泄露,基本上很难仅仅依赖它们。这就是为什么我们在行业中看到,工业界的参与者通常会选择他们想要依赖的基准测试,然后在我们的帮助下, 设计特定的定制基准测试供内部使用,以确保它们不会被泄露到任何地方,等等。


我会说,目前与代理相关的一个非常流行的基准测试是TAU 基准测试。它是由 Sierra 公司设计的— 可能是几年前,也可能是一年前。现在它正在获得大量关注,大家都希望有类似的基准测试来评估他们的模型。SWEBench也是一个非常受欢迎的编码基准测试。有一些有趣的基准测试,比如Gaia 基准测试,它是基于一些用例设计的,这些用例对人类来说相对容易解决,但对AI代理来说非常难以解决。


这很有趣,因为它非常不实用。你在任何现实生活场景中都不会遇到这样的任务。但同时,它们很有趣,因为它们展示了现代AI代理能力的局限性。


Ksenia: 你认为有可能创建某种通用基准测试吗,还是说目前主要还是内部基准测试更有意义?


Olga:说实话,我不太相信有一个通用基准可以衡量所有东西。我更相信一套不同的、专业化的基准测试。它们非常有用,实际上很实用— 因为你会以这个基准为目标:“我想达到这个基准的90%”,然后你优化模型以达到那个水平。然后你说,“好,现在我想选择另一个基准并为之优化。”这基本上就是行业发展的指导步骤。


有一些关于通用的、行业范围内的基准测试或通用数据集的有趣举措。比如说,我们与社区MLCommons 一起,参与创建了这样一个红队测试数据集。


Ksenia: 这是最近发布的吗?


Olga:是的,发布于2024 年 12 月。这是一个尝试创建可供整个行业使用的东西的例子。我认为这些都是很有意义的举措。但从实际生产的角度来看,当然每个团队都会愿意定义自己的路径,并设定他们想要达到的具体基准。


Ksenia: 人类的另一个角色。


Olga:我认为这确实是人类的一个角色,成为事实真相的来源和基准。因为归根结底,AI的整个概念就是人类专家不是执行者,而是基准。


Ksenia: 说得好。你认为会有一天人类只是AI的工具吗?


Olga:我不认为,因为从哲学上讲,这不是成为工具的问题。关键还是要成为事实真相的最终衡量标准。所以AI是在努力追赶人类的专业知识。我认为在某些领域,我们已经达到了平均模型表现优于普通人的情况。这也是为什么收集集体人类智慧成为一项具体工作,而这种智慧仍然高于AI的智慧。但这正是整个发展和进步的本质。


从技术角度来看 — 回到我们开始时的观点, 我确实认为,当我们谈论人类操作时,我们需要像看待AI代理操作员一样看待人类操作员。因为从技术上讲,这应该是一个无缝的流程,在人类和 AI之间导航任务。

他们是在协作工作。所以这个过程不应该有“这是人类部分,这是 AI部分”这样的界限。


Ksenia: 谢谢。现在进入我的最后一个问题:我相信书籍塑造人类。有没有一本书影响了你的哲学? 无论是对公司还是整体?


Olga: 我最近一直在思考这个问题,可能这不是最常见的答案,因为我最喜欢的书是一本纯虚构的书。那就是Foucaults Pendulum by Umberto Eco


这是一本包含大量文化参考和多层次内容的书。但其中有一层最近让我深受触动— 当我多年前第一次读它时并未意识到,但最近重读时,我感到非常震惊。尽管它写于 20世纪 80年代,远在任何人工智能出现之前,基本上书中描述的,在某种层面, 是文字的力量。字母的力量。它描述了一个简单的字母序列、简单的文本,如何凭借自身创造出全新的概念、全新的社会、全新的宗教— 最终,甚至关系到特定人的生死问题。整本书的故事都是围绕人们发现一小张写有字母的纸片开始的。根据你如何填补这些字母之间的空白,你可以将其视为秘密社团和隐藏宝藏的起点,或者仅仅是一位妻子写给丈夫的便条,提醒他去市场买些东西。这两个完全不同的轨迹,竟然可以由一串简单的字母序列生成。如果你仔细想想——这正是我们现在在大型语言模型中所观察到的现象。这种文字的奇妙力量,50 年前还只是纯粹的虚构和智力游戏,而现在我们却真正地生活在其中。所以我认为这正是我最近读过的书让我感到兴奋的地方。


Ksenia: 哦,那真是太有趣了。非常感谢您接受这次采访,收获颇丰。


Olga:谢谢。


文章来自于“X Partners”,作者“浅浅是Cloris”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner