360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”
360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”如何让CLIP模型更关注细粒度特征学习,避免“近视”?360人工智能研究团队提出了FG-CLIP,可以明显缓解CLIP的“视觉近视”问题。让模型能更关注于正确的细节描述,而不是更全局但是错误的描述。
如何让CLIP模型更关注细粒度特征学习,避免“近视”?360人工智能研究团队提出了FG-CLIP,可以明显缓解CLIP的“视觉近视”问题。让模型能更关注于正确的细节描述,而不是更全局但是错误的描述。
昨天发现Mary Meeker又重新开始发布她每年一次的《互联网趋势报告》,只不过这次开始叫《人工智能趋势报告》了,整份报告有 340 页,非常详细的分析了AI领域的现状。
来自香港中文大学、爱丁堡大学、香港科技大学与华为爱丁堡研究中心的研究团队联合发布了一项关于AI记忆机制的系统性综述,旨在在大模型时代背景下,重新审视并系统化理解智能体的记忆构建与演化路径。
研究者针对 few-shot 图像编辑提出一个新的自回归模型结构 ——InstaManip,并创新性地提出分组自注意力机制(group self-attention),在此任务上取得了优异的效果。
哈工大论文斩获ACL评审阶段已知最高分!考虑到英文键盘难以适配汉字特点及文化内涵,团队通过传感器捕捉手部书写,实现汉字的自然输入与识别;独创的中文字形编码使AI能深入理解汉字形态而非仅关注词义,推动AI从「识字」迈向「解字」。该研究革新了中文人机交互,推动了汉字文化传播与传承,更为AI深度理解汉字智慧开辟了新道路。
Genspark 借助 Claude 打造自适应的 AI Agents,改变了人们研究和创建内容的新姿势,为复杂的工作流提供了极大的效率和规模。Genspark 借助 Claude 打造自适应的 AI Agents,改变了人们研究和创建内容的新姿势,为复杂的工作流提供了极大的效率和规模。
在 「What's Next|科技早知道」 的播客节目中,峰瑞资本执行董事 刘鹏琦 和「声动活泼」联合创始人&「科技早知道」主播 丁教Diane ,以及「科技早知道」节目监制 雅娴 ,围绕具身智能赛道所处的新阶段与核心挑战,探讨了以下问题,包括但不限于:
AI尚未大规模替代人类工作,就业市场未现显著冲击,企业投资回报低于预期,进入技术幻灭期。研究指出AI对生产力的影响存在滞后效应,关键问题在于能否提升社会整体生产力而非单纯替代人力。未来需构建制度框架,平衡技术发展与社会利益。
来和机器狗一起运动不?你的羽毛球搭子来了!无需人工协助,仅靠强化学习,机器狗子就学会了羽毛球哐哐对打。基于强化学习,研究人员开发了机器狗的全身视觉运动控制策略,同步控制腿部(18个自由度)移动,和手臂挥拍动作。
多AI智能体系统的复杂构建与优化,长期以来是用智能体解决科研问题和场景落地的瓶颈。来自英国格拉斯哥大学的研究团队发布了全球首个AI智能体自进化开源框架EvoAgentX,通过引入自我进化机制,打破了传统多智能体系统在构建和优化中的限制!