GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验
GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验华东师范大学智能教育学院发布OmniEduBench,首次从「知识+育人」双维度评测大模型教育能力。测评2.4万道中文题后,实验结果显示:GPT-4o等顶尖AI会做题,却在启发思维、情感支持等育人能力上远不及人类,暴露AI当老师的关键短板。
华东师范大学智能教育学院发布OmniEduBench,首次从「知识+育人」双维度评测大模型教育能力。测评2.4万道中文题后,实验结果显示:GPT-4o等顶尖AI会做题,却在启发思维、情感支持等育人能力上远不及人类,暴露AI当老师的关键短板。
在三维视觉领域,3D Gaussian Splatting (3DGS) 是近年来大热的三维场景建模方法。它通过成千上万的高斯球在空间中“泼洒”,拼合成一个高质量的三维世界,就像是把一片空白的舞台,用彩色的光斑和粒子逐渐铺满,最后呈现出一幅立体的画卷。
刚刚,在理解大模型复杂行为的道路上,OpenAI又迈出了关键一步。他们从自己训练出来的稀疏模型里,发现存在结构小而清晰、既可理解又能完成任务的电路(这里的电路,指神经网络内部一组协同工作的特征与连接模式,是AI可解释性研究的一个术语)。
今日,全球首个Vibe Selling AI Agent 公司「Dealism」宣布完成 1500 万美元天使轮融资,由高瓴创投(GL Ventures)领投,红杉中国、线性资本及其他投资人跟投。
随着现在的主流大模型都能轻松通过图灵测试,这个持续了数十年的标准开始逐渐过时。奥特曼和量子计算之父David Deutsch讨论得出了一个新的图灵测试2.0标准,可以更好地衡量究竟怎样AI才算拥有真正的智能。
先是彭博社等多家媒体爆料,对标ChatGPT、Gemini,阿里即将对通义APP进行全面改革,而且计划第一步就是将“通义”更名为“Qwen”。谷歌也在今日出手,直接把战火烧到了阿里的电商主场。谷歌宣布推出全新AI购物功能,允许用户直接使用AI浏览商品、拨打电话咨询店铺,甚至完成一键结账。
AI已足够聪明,却不够温柔。Zelikman离开xAI的决定,既是技术路线之争,也是价值取向之选:我们要一台更快的计算机,还是一个更懂人的伙伴?当资本开始为「共情」下注,真正的考题是——算法能否承担理解的重量,而非仅仅生成正确的句子。
研究者们提出了 FDA(Model Merging with Functional Dual Anchors)——一个全新的模型融合框架。与传统的参数空间操作不同,FDA 将专家模型的参数知识投射到输入-表征空间中的合成锚点,通过功能对偶的方式实现更高效的知识整合。
多模态大语言模型(MLLMs)在处理来自图像和文本等多种来源的信息时能力强大 。 然而,一个关键挑战随之而来:当这些模态呈现相互冲突的信息时(例如,图像显示一辆蓝色汽车,而文本描述它为红色),MLLM必须解决这种冲突 。模型最终输出与某一模态信息保持一致的行为,称之为“模态跟随”(modality following)
从人的状态看,李彦宏比以前更「放松」了,而从事儿的角度看,百度似乎有意识的聚焦了。