超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集
超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。
近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。
肝癌是全球癌症相关死亡的第三大原因,手术切除后的复发率高达70%,如何准确预测肿瘤手术切除后复发风险是一个难题。
国内首款全流程 AI 互动小说创作工具「谜境 Agent」于近日上线,该工具通过整合剧本生成、美术绘制、交互设计等模块,将传统需要 4-6 个月的开发周期压缩至 10 分钟内完成。
如何用一小时完成3D游戏开发?「vibe coding」(氛围编程)让3D游戏制作变得轻松。无需编写代码,借助AI工具就能打造游戏,甚至还能盈利!从骑马大战飞龙的奇幻冒险,到水上摩托艇的惊险竞速,再到多人海盗船的探索之旅,Vide Coding的热潮正在席卷网络。
在游戏开发者大会(GDC)前夕,Xbox 于周四透露正在试验一款由 AI 驱动的游戏助手。
据外媒 TechCrunch 报道,OpenAI 近日在一项新的政策提案中,将 DeepSeek 描述为被官方资助和控制的实体,并呼吁对该机构及类似机构开发的中国 AI 模型实施禁令。OpenAI 在提案中指出:「虽然目前美国在 AI 领域仍保持领先,但 DeepSeek 的出现表明,这一领先优势并不大,且正在缩小。」
四个月前,我们采访了 Chat2DB 创始人姬朋飞,文章里讲述了他从大厂离职后的创业历程。而最近 Cha2DB 针对 SQL 开发者的普遍痛点,发布了全新的 3.0 版本。
就在刚刚,OpenAI 发布了一系列专为构建 AI Agents 设计的新工具和 API,帮助开发者更容易创建能自动完成任务的 AI Agents(智能体)。
2024年对我用AI来做独立开发,最大的意义就是回本了。谈到“回本”,主要是指我们作为Apple Developer,每年需要支付99美金的会员费。第一年的99美金,相当于我的学费。当时我发布了一个名为“裁切大师”的应用,带来了约40多美金的收入
下面这个,不是 Manus,是 OpenAI 新货:凌晨 1 点的时候,OpenAI 发布了全套 Agent 开发套件,让手搓 Manus 触手可及。套件包含 4 个主要内容Responses API:本次发布会的核心,可视作 Chat API 的上位升级