这是读芯术解读的第99篇论文
ACL 2018 System Demonstrations
HarriGT:新闻文章与科学文献的自动链接
HarriGT: A Tool for Linking News to Science
华威大学
University of Warwick
本文是华威大学发表于 ACL 2018 的工作,文章提出了一个半自动化的工具HarriGT,用于构建新闻文章与其所讨论的科学论文的链接语料库,为未来新闻/科学工作引用链接的信息检索工作提供服务。HarriGT从包含17年英国网络内容的档案中检索新闻文章。它还集成了3个大型外部引文网络,利用命名实体提取和文档分类,向用户展示科学文献的相关实例。我们还提供了经过调整的候选者排名算法,向用户展示科学论文和新闻文章之间的潜在链接,以便按可能性顺序排列。HarriGT可在 http: //harrigt.xyz获取。
1 引言
对于科学家来说,了解记者如何报道他们的工作以及这些报道后续的社会影响,是一项非常重要的任务。研究基金委员会也越来越关注所资助研究所产生的影响。科学类新闻报道中的引文提取仍然是一项富有挑战性的研究课题。在新闻文章中引用科学著作是没有正式或非正式的要求的,而且即使是在同一个出版社的新闻工作者,科学报道的质量也大不相同。科学记者经常从他们的报告中省略关于谁资助或甚至执行一项特定研究的关键信息,使得识别这项工作非常困难。记者们还经常在报道中引用那些没有直接参与科学工作的学者,这进一步阻碍了自动引文提取工作的发展。
本文假设主流媒体所反映的对研究工作的认知是衡量综合影响的重要手段,对研究人员本身以及资助机构都非常有用。然而,构建评估这种综合影响的自动化解决方案的主要障碍之一是缺乏训练数据。为解决新闻科技工作中参考文献的抽取与消歧问题,本文提出HarriGT,收集与科学文献相关的新闻文章语料库。这种语料库可以用来建立机器学习模型,从而能够自动将新闻文章与科学作品联系起来。通过这种方式,可以为未来的研究奠定基础,也可以帮助科学家通过媒体了解他们工作的社会认知和影响情况。
2 系统概述
HarriGT是一个系统,它汇集了以广泛使用的开源WARC格式存储的网络档案中的历史新闻文章。该系统自动获取和解析新闻文章,并搜索相关候选论文的引用关系图,用户可以进行链接或隐藏或标记为垃圾邮件等操作。HarriGT网站上的图标可以解释这个过程。本文利用来自微软、Scopus和Springer的英国国家网络档案和候选科学论文。网页界面中呈现新闻文章和候选科学论文,使用户能够快速决定每个候选者是否链接到新闻文章。本节将详细讨论此过程中涉及的组件,并概述我们在系统创建过程中所面临的一些挑战。
新闻语料检索
为了建立一个全面的新闻语料库,我使用JISC Web Archiv,其是1996年到2013年间.uk顶级域名的全面精选。内容以Web Archive(WARC)压缩格式存储,索引文件包含关于每个被剔除的URL的元数据,并且可以使用指向WARC结构中相关内容的指针。JISC Web Archive的大小约为62TB,因此识别和过滤相关内容成为首要问题。
首先我们将调查限制在2011至2013年末的新闻文章中,通过维基百科第2条为英国当地和国家新闻机构编制了一份网址列表,以便将工具应该检查的主机名数量减少到205个。归档索引文件还提供了关于每个WARC条目的类型以及原始scrape是否成功(例如,URL是否无效)的元数据。这就把要检查的WARC条目总数减少到大约1150万个。通过标识在同一BLOB中归档的一批URL脚本,对托管web归档的BLOB商店的请求进行优化。
新闻文本预处理和过滤
archives的内容通常是HTML,因此我们需要提取每个新闻故事的标题和正文。新闻文章遵循典型的布局,因此可以使用规则和模式而不是机器学习方法来提取内容字段。开源library newspaper(http://newspaper.readthedocs.io/en/ latest/)非常有效,并且允许我们访问文章的标题、作者、发布日期和其他元数据。
我们发现,使用新闻的科学部分过滤适当的文章会导致漏掉相关材料。第二种方法是只接受通过两个高级关键字过滤器的文章。首先查看一篇文章是否包含一个或多个关键词:科学、科学家、教授、医生、学术、期刊、研究、出版、报告。我们故意选择这些关键词作为一个简单的过滤器,以减少时事/名人八卦新闻的数量。对于第二个过滤器,我们运行了一个命名实体识别(NER)算法,它为名称、位置和地理政治实体提供多词表达识别和分类。根据NER的执行结果,我们只接受至少有一个包含大学、学院或组织的文章。
预处理流水线中的最后一步是识别每个文章的发布日期。出版日期是候选论文评分算法中最突出的特点之一。最近的数字新闻文章在HTML元数据中公布发布日期。然而,对于Web存档中的许多旧文章,此信息不存在。对于没有已知发布日期的文章,我们首先尝试从实时互联网检索相同的URL,其中大部分原始内容仍然可用,但是具有更新的布局和元数据。如果找不到内容,我们使用一组正则表达式尝试在HTML中找到日期。除此之外,我们只是要求用户尝试在用户界面内手动识别发布日期。
检索和预处理步骤是相当耗时的,采用现代工作站(Intel i7 QuadCore @ 3.5GHz,16GB RAM)大约24小时来处理20K新闻文章。因此,我们使用一个小的Apache Hadoop集群批量地将内容输送到HarriGT中。
垃圾过滤
在预处理过程中,我们的关键字过滤器去除了大量不涉及科学工作的文章。但是仍有一些文章通过了这一初步筛选。我们通过将机器学习的“垃圾邮件”模型引入到HarriGT中来解决这个问题。在用户界面中,如果新闻文章包含很少相关的科学内容,则可以将其标记为垃圾邮件。当用户继续标记文章时,使用来自垃圾邮件和链接类别的新实例重新训练模型。
本文训练了两个机器学习模型来解决这个问题,一个朴素贝叶斯分类器和支持向量机。我们使用网格搜索来确定特征提取的最佳训练超参数和模型。最优特征超参数是TF-IDF加权的一元和二元词袋特征,最大文档频率为75%,最大词汇量为10000。我们发现,线性内核和C = 1的SVM产生了最好的结果。表3.3显示我们的模型结果经过4次迭代的训练和使用。
引文图整合
为了为每篇新闻文章提供候选科学著作,我们需要与尽可能多学科的丰富数据源集成。本文将HarriGT与微软学术知识、Scopus和Springer APIs集成在一起。这些APIs都提供了广泛的、最新的已知学术著作的报道。每个API具有不同的搜索端点,具有不同的查询语言和语法。
每个API都返回元数据,如标题、作者姓名和隶属关系、发布地点名称和发布日期。在大多数情况下,每个API返回DOI,使得每个工作可以通过HarriGT接口被唯一标识和链接。
文章通常谈到科研工作者所在的机构以及作者的名字,例如“Cambridge Researchers have found that... Dr Smith who led the study said...”,使得引文信息自动提取工资变得非常困难。因此,我们使用NER来识别文章中的所有名称和机构,并对每个排列进行引用图查询。例如“A study run by Oxford and Cambridge universities found that... Dr Jones who led the study said...”,会产生两个问题:(Jones, Oxford),(Jones, Cambridge)。搜索限定在文章发表日期加减90天的时间内。
候选打分策略
对给定的新闻文章,我们通过对每对提到的姓名和作者的Levenshtein
的平方求和,来给每个候选科学工作ci打分:
对提到的组织和机构采用一个类似计算:
Levenshtein Ratio是一种简单、有效的方法,用于评估NE的相似性。我们还计算了新闻文章的发布日期、D和科学工作Pi之间的天数
。在候选文章具有多个发布日期(例如,在线发布与打印发布)的情况下,对所有发布日期计算
,并保留最小值。
最后,我们通过规范化
和
,对每一篇文章计算一个总体得分Si:
根据候选者的Si分数降序排列,以便首先向用户呈现得分最高的候选者。
3 评估
为了评估候选评分技术,我们使用它来检索包含一篇或多篇科学论文链接的N个最佳新闻文章。对于每一篇新闻文章,我们从引文图中检索所有候选科学著作。然后,我们使用评分算法对候选者进行排名,然后检查实际链接的论文是否出现在前1、3和5个结果(Top-K准确性)中。
本文采用以下方式定义工具的召回,考虑标注为link和hidden的item比例:
系统的召回率为0.57。这个数字可能低于实际数字,因为如果出现几个强有力的候选者,并且他们不确定链接到哪个论文,那么标注者有时会将论文归类为“hidden”。我们预计这个数字会随着更多的使用而变得越来越大。
4 总结
本文提出一种HarriGT方法,致力于快速建立科学工作和新闻文章之间的链接。采用自然语言处理组合技术,提出一个简单有效的候选排名算法,可以有效构建科学文献和新闻文章的链接语料库,为新闻媒体上科学文献的影响分析提供帮助。这个工具也可以用作其他的诸如科技新闻核心源发现。未来姜维探索这个任务中的时间角色或其他内容。HarriGT提供有用的排名机制和较好的召回率,并且准备在大型语料库上进行运用。HarriGT可在http://www.harrigt.xyz获取,欢迎各位试用并提出宝贵意见。
论文下载链接:
http://aclweb.org/anthology/P18-4004
留言 点赞 发个朋友圈
我们一起分享AI学习与发展的干货