将你的LLM评估从感觉转向数据
Stax是谷歌实验室推出的一款用于解决LLM评估难题的工具。通过构建自定义自动评估器来量化您关心的指标,告别"感觉测试"。这是一个完整的工具包,可使用您的数据测试AI技术栈,并支持所有主流模型提供商。