首个英文原生「弱智吧」!逻辑谬误数据集与生成框架来了 | AAAI'26
首个英文原生「弱智吧」!逻辑谬误数据集与生成框架来了 | AAAI'26最近研究发现,大模型在判断逻辑谬误时容易「想太多」,误报正常句子,但在确定有谬误后,其分类能力较强。研究人员构建了首个高质量英文逻辑谬误基准SMARTYPAT-BENCH,并开发了基于Prolog的逻辑谬误自动生成框架SMARTYPAT,为大模型逻辑能力评估提供新思路,可用于谬误识别、辩论教育等领域。
最近研究发现,大模型在判断逻辑谬误时容易「想太多」,误报正常句子,但在确定有谬误后,其分类能力较强。研究人员构建了首个高质量英文逻辑谬误基准SMARTYPAT-BENCH,并开发了基于Prolog的逻辑谬误自动生成框架SMARTYPAT,为大模型逻辑能力评估提供新思路,可用于谬误识别、辩论教育等领域。
北京五环外的某大厂,“AI天才”的赛道也是被我硬挤进去了……
重注,能不能押出 MR 新赛道?
OpenAI真的急了!最新代码截图流出,一款全新「企鹅」家族模型秘密测试,有四款推理预算不同的模型。说不定不用等到明年,就能看到GPT-5.2出世了。
我们距离“一人造一家公司”、亦或者“仅凭自然语言就能开发出一款完整的应用甚至游戏”还有多远?
就在前天,DeepSeek 一口气上新了两个新模型,DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。
继今年5月提出MeanFlow (MF) 之后,何恺明团队于近日推出了最新的改进版本—— Improved MeanFlow (iMF),iMF成功解决了原始MF在训练稳定性、指导灵活性和架构效率上的三大核心问题。
昨天晚上打开蚂蚁那个灵光,发现他们更新了一个很有趣的东西。
一家名为Gradium 的巴黎人工智能语音初创公司,从非营利研究实验室中独立出来,并获得了 7000 万美元的融资,投资方包括前谷歌首席执行官埃里克·施密特和法国电信亿万富翁泽维尔·尼尔等一线投资者。
一家成功的科技公司,其灵感往往源于最切身的痛点。对于 Archy 的创始人 Jonathan Rat 而言,这个痛点来自他的夫人。