清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖
5405点击    2024-07-18 16:26

一年一届的信息检索领域顶会SIGIR 2024,终于开奖了!


今年,SIGIR组委会暂未汇总公布所有的获奖名单,不过已经有机构/网友纷纷晒出了自己的成绩单。


值得一提的是,清华计算机系今年一次摘得多项大奖:


2014年发表的论文斩获SIGIR 2024唯一「时间检验奖」,另一篇论文获得「最佳论文奖」。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


网友对此表示热烈祝贺,「实至名归」!


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


另外,CS系助理教授艾清遥还获得了「青年学者奖」,这也是中国大陆研究学者首次拿下该奖项。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


除清华艾清遥之外,还有微软研究院Bhaskar Mitra、拉德堡德大学Harrle Oosterhuis,以及中科大Xiang Wang教授(王翔)成为青年学者奖的获奖者!


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


此外,还有社区奖、DEI奖的三位获奖者。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


今年,是国际计算机学会信息检索大会(SIGIR)第47届会议,于7月14日-18日在美国华盛顿特区正式召开。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


这次会议共收到1148篇投稿,其中有791篇是有效投稿,仅有159篇长文被录用,录用率为20.1%。相较于CVPR、ICML这样的顶会,投稿数少了一大截。


根据艾清遥对接受论文的统计,从各研究机构教师的论文数量来看,今年亚洲的贡献似乎最大。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


接下来,一起看看大家的获奖成果。


清华CS系抱走两项大奖


最佳论文奖——Scaling Laws For Dense Retrieval


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


这篇获奖论文,由共同一作方言、詹靖涛,指导老师艾清遥助理教授、刘奕群教授完成的论文。


这是来自中国大陆的研究机构首次牵头获得该奖项。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖

论文地址:https://dl.acm.org/doi/abs/10.1145/3626772.3657743


Scaling Law早已成为大模型公认的定律,即LLM智能水平与参数规模呈正相关性,成为大模型区别于传统AI模型的重要特征。


然而,这一定律是否适用于其他深度神经网络模型,仍旧存在巨大的争论。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


在这项研究中,作者针对这一问题展开了深入的研究。


他们设计了新型检索性能评价范式,验证了Scaling Law在稠密信息检索中的适用性。


这对搜索引擎、推荐系统等信息检索系统的设计,将发挥重要的指导作用。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


时间检验奖——Explicit factor models for explainable recommendation based on phrase-level sentiment analysis


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


时间检验奖,通常颁给10年以上的产生重要持久影响的学术论文。


这篇发表在2014年的论文,由时任计算机系张永锋博士、赖国堃等学生,在张敏教授、刘奕群教授、马少平教授指导下完成。


清华官微称,自2014年以来,这项「可解释性推荐」研究自发表以来,在互联网推荐系统的设计与实现中一直发挥着重要的引领作用。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


正如论文题目所示,研究中首次定义了「可解释性推荐」的问题。


同时,研究人员设计了相应的情感分析算法,以解决这一技术挑战,


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖

论文地址:https://dl.acm.org/doi/10.1145/2600428.2609579


根据Google Scholar的统计,截至目前,这篇论文被引数近千次。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


其他奖项


最佳论文提名


来自山东大学、莱顿大学、阿姆斯特丹大学的研究人员发表的论文——Generative Retrieval as Multi-Vector Dense Retrieval,获得了最佳论文提名。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


研究中,作者介绍了生成式检索在给定查询的情况下,使用序列-序列架构,以端对端的方式生成相关文档的标识符。


当前,生成式检索与其他检索方法(尤其是密集检索)的关系尚未完全清晰。


先前的研究发现,使用原子标识符的生成式检索,等同于单向量密集检索。然而,以前的研究仅关注检索阶段,而未考虑生成式检索解码器内部的深层交互。


本文通过证明生成式检索和多向量密集检索,共享衡量文档与查询相关性的框架来填补这一空白。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖

论文地址:https://arxiv.org/pdf/2404.00684


最佳论文奖亚军


还有一篇来自格拉斯哥大学和比萨大学的研究人员发表的A Reproducibility Study of PLAID,获得了最佳论文奖亚军。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


此前研究中,ColBERTv2的PLAID(Performance-optimized Late Interaction Driver)算法,使用聚类的术语表示来检索和逐步筛选文档,以进行最终(精确)的文档评分。


最新论文,研究人员重现了原始工作,并填补了其中的空白。


通过研究PLAID引入的参数,作者发现了其帕累托前沿(Pareto frontier)是由三个参数之间的精心平衡形成的。


而超出建议设置的偏差可能会大幅增加延迟,而不一定能提高其效果。


之后,研究比较了PLAID和对BM25结果进行重新排序的方法,在低延迟情况下,重新排序方法表现更好。但在高延迟情况下,重新排序方法难以达到最佳效果。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖

论文地址:https://arxiv.org/pdf/2404.14989


最佳短论文奖


来自马萨诸塞大学阿默斯特分校的研究人员发表的Evaluating Retrieval Quality in Retrieval-Augmented Generation,获得了本届SIGIR最佳短论文奖。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


这篇获奖论文,仅有6页。


研究中,提出了一种全新的评估检索增强生成(RAG)系统的方法,名为eRAG。


之所以提出全新的方式,是因为当前RAG系统评估面临着挑战。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖

论文地址:https://arxiv.org/pdf/2404.13781


一是传统的端到端评估方法计算成本高,另一个是基于查询-文档相关性标签的检索模型评估,与RAG系统的下游性能相关性较小。


eRAG方法可以将检索列表中的每个文档,都被单独输入到RAG系统的大模型中,针对每个文档生成的输出都基于下游任务的真实标签进行评估。


结果显示,eRAG显著改善了运行时间。相较于端到端的评估,GPU内存消耗减少了最多50倍。


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖


参考资料:

https://x.com/thudcst/status/1813395091723272199

https://x.com/QingyaoAi/status/1785245799439630351

https://mp.weixin.qq.com/s/4SPX31Rt-j75pYHcBmGdTA


文章来自于微信公众号“新智元”,作者 “桃子,好困”


清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/