北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。
随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。
刚刚,全新AI基准测试工具xbench诞生,通过双轨评估体系和长青评估机制,追踪模型能力与实际场景价值。
“科技女皇”木头姐,再一次力挺AI医疗。
AI居然不听指令,阻止人类把自己给关机了???
腾讯自发布一季报以来股价表现平平,虽有小涨,但未能创出新高。今年2月我在《Deepseek带来的价值重估 腾讯还能涨多久?》中说过,腾讯股价接下来能不能继续上涨,要看AI能带来多少实实在在的收入贡献。在一季报中,腾讯管理层虽然强调了AI对广告业务的提升,但未量化到具体的收入,也没有披露任何与AI相关的运营数据。
当AI搜索完全免费后, 我们的工作流、交互方式、信息记录方式都会有什么变化?
只用5%的参数,数学和代码能力竟然超越满血DeepSeek?
AI 火了之后,我就想问:有谁还没有用过 AI?
2002年,在拿下中国高校第一个ACM(计算机领域最顶尖的程序设计大赛)金牌后,上海交大设立了“ACM班”,这个用最高竞赛命名的班级后来人尽皆知,成为中国AI人才的重要阵地。也在那年,李磊成为ACM班第一届的学生。在ACM班他第一次意识到,“原来计算机能帮助解决人类的这么多问题。”
当你在搜索“中国队在多哈乒乓球锦标赛的成绩”时,一篇新闻报道的文本部分和你的查询的相关性是 0.7,配图的相关性 0.5;另一篇则是文本相关性为 0.6,图片也是 0.6。那么,哪一篇报道才是你真正想要的呢?