随着互联网的发展,新闻领域积累了大量非结构化的信息资源,特别是时政新闻领域蕴含了大量的人物事件活动信息。研究如何从时政新闻文本中抽取有价值的人物、事件信息及其关系,有助于从整体上把握政治事件发展的态势,并为构建时政新闻事件知识图谱奠定基础。知识图谱源于语义网[1],由Google公司提出并用于知识搜索引擎。知识图谱以图结构描述现实世界的实体及实体关系,通过本体模式来确定实体和实体关系的范围,允许实体之间存在潜在关系。随着知识图谱的发展,从事件的角度出发,以知识图谱的形式结构化表示事件语义信息,可以为面向事件的应用研究提供理论和技术支撑。事件是一种特殊类型的知识[2],是由文本中观察到的事实与事实关系所构成的复杂组合,事件提供了语义理解的语境和框架,对知识有更加深入的表达层次。事件知识图谱是以事件为中心构建的一种复杂知识图谱[3],以结构化的形式表示事件及事件关系,在新闻领域应用广泛。事件知识图谱作为传统知识图谱的补充,对动态事件信息和事件逻辑关系挖掘以及认识客观世界发展规律有着重要的意义。
事件抽取是事件知识图谱构建的核心步骤,是指从文本中抽取出事件和与事件相关的要素[4]。自动内容抽取(automatic content extraction, ACE)国际测评会议定义了事件抽取的两个核心步骤:事件触发词抽取和事件元素抽取[5]。其中,事件触发词抽取是找出最能体现事件发生的核心词并分类,事件元素抽取则是抽取事件发生的时间、地点、参与事件的人物等信息,二者可以构成对一个事件的完整描述。根据事件抽取的结果,可以清晰地获取文本的主要信息,还可以根据事件触发词类型或事件元素对文本进行分类等处理。事件抽取的研究对信息抽取、文本分类等自然语言处理任务的进展有着非常大的推动作用。
在新闻领域的框架表示事件抽取研究方面,Petroni等[6]提出一种从新闻报道和社交媒体中抽取突发事件的框架表示,定义了“洪水”“火灾”“风”等7种突发事件类型,并设计了各类事件元素的框架表示。框架表示事件的标注语料虽然可以保证每类事件的数量,但标注语料的规模仍然比较小。在实例表示事件抽取研究方面,Zhou等[7]从推特中用无监督模型抽取有价值的新闻事件并结构化表示,用无监督的方法抽取结构化事件信息。实例表示事件抽取可以面向通用领域的事件,也可以面向特定领域背景的事件,但由于语言结构的复杂性,实例表示事件抽取很难准确地获得语义信息,需要一定的人工方式加以辅助。
事件标注语料库是事件抽取研究的基础。国内外众多学者及评测聚焦于新闻事件语料库构建,其中多语言的有ACE测评语料[5],主要包括英语、汉语和阿拉伯语,该语料由语言数据联盟(linguistics data consortium,LDC)进行标注,ACE2005测评语料共有1 635篇文档,定义了8个主要事件类型,语料的内容主要来源于新闻语料。英文的有基于新闻语料的时序事件库GDELT[8],该事件库主要从新闻语料中获取事件知识,重点定义了事件的类型和要素。中文的有中文突发事件语料库(Chinese emergency corpus,CEC)[9],该语料库包含332篇文档,是对从互联网中获取的地震、火灾、交通事故、恐怖袭击和食物中毒五类突发事件的新闻进行一系列标注及处理所形成的。
目前存在的公开评测语料大多面向通用领域,少量的特定领域事件抽取语料不能满足多样化的实际应用需求。如ACE语料仅对新闻语料所关注的常用事件类型进行标注,CEC语料对事件进行了细致的划分,但其规模较小。不同类别的新闻具有其自身的独特性,通用领域的新闻语料库并不能满足时政新闻领域研究的需要。基于此,本文根据时政新闻文本自身的特点构建了时政新闻事件语料库。
本文所构建的时政新闻语料库是以2019年度时政新闻文本为标注对象,进行细粒度的标注。首先对语料进行细致的分析和研究,确立标注粒度和标注体系,进而制定标注规范。标注主要分为事件元素和事件子类别的标注,并为事件参与者划分不同的角色。标注过程中为保证标注结果的准确性和一致性,建立了标注规范、标注一致性控制方案及合理的评价方法,并对典型事件的特殊处理和语料库构建结果进行了分析和说明。
1 时政新闻文本标注规范 1.1 时政新闻文本标注体系对时政新闻事件进行分析,根据新闻语料中政治人物参加的事件活动,确定了不同事件的触发词,将时政新闻文本划分为出访、会议、考察调研、致电致信和外事活动五大类。对不同类别的事件进行深入分析,每类事件中都蕴含了大量的人物关系以及事件的内在联系。首先,事件中会存在多个人物,并且所涉及的人物会同时存在多个角色。不同类别的新闻事件中所涉及的人物角色也会有差别,为了更好地区分各类事件中的多个人物属性,需要分别划分人物角色。此外,一个新闻事件中会存在多个子事件,子事件之间也会存在内在联系,因此对粒度进行细致标注是很有必要的。通过对时政新闻文本进行分析,并参考ACE2005及CEC语料的类型定义,建立了完整的标注体系,如表 1所示。
![]() |
表 1 标注体系 Tab. 1 Annotation system |
对不同的事件类型共定义了九种事件元素类型和三种类别。九种事件元素类型如下。
1) 时间:事件发生的时间。
2) 地点:事件发生的地点。
3) 人物:事件参与者,根据人物与事件的关系,将其划分为不同的角色。
4) 文章标题:只存在于出访事件中,特指出访人在出访前夕发表的文章。
5) 媒体:只存在于出访事件中,特指出访前夕发表文章的媒体。
6) 事由:致电致信事件中,进行致电致信的原由,通常是一句话,允许嵌套。
7) 会议名称:召开会议的名称,允许嵌套。
8) 机构:召开会议的机构,通常嵌套于会议名称中。
9) 文件:只存在于会议事件中,包括审议文件和通过文件。
对不同的事件类型定义的三种类别如下。
1) 子类别:对事件中的子事件进行类别划分。
2) 事项类别:根据事件中的人物所进行的某事项进行类别划分。
3) 对象类别:对事件中对象的类别进行划分。
1.2 标注语法定义为了方便语料库的存储以及后续的研究,定义了标注的基本形式为“{被引用短语 < name: value|name1:value1|name2:value2>}”,标注基本形式中的符号均为英文标点字符,其元素不能缺失且顺序与定义一致,表 2对标注符号进行了具体说明。
![]() |
表 2 标注符号及含义说明 Tab. 2 Annotation symbols and meaning description |
根据各类时政新闻事件自身的特点,制定的标注规则主要有相关性原则、不跨句原则及嵌套规则,其中相关性原则与不跨句原则是对五类事件的约束,而嵌套规则中,除了子类别允许嵌套之外,考虑标注的完整性,个别事件元素的标注也允许嵌套。下面分别结合标注样例对这三类标注规则进行具体说明。
1) 相关性原则
标注的内容需要与要标注的属性具有高相关性,且内容适当短小,避免无关内容引入同一属性,有多个可选标注文本短语时,应当尽可能标注其上下文环境中更相关、更能充分表达语义的那段文本短语。
① {{市委 < 机构>}召开{常委会扩大会议 < 会议名称>} < 子类别: 其他会议>},认真学习……精神。市委书记{王宏 < 主持人|讲话人>}主持会议并讲话。
该样例中会议的具体内容无须包括在内。
2) 不跨句原则
“{}”不能包含超过一个句号或者段落的内容,但可以包含逗号分隔的多个子句。
② {{{十三届全国政协 < 机构>}第二十一次双周协商座谈会 < 会议名称>}{近日 < 时间>}在{京 < 地点>}召开 < 子类别: 全国政协会议>}。中共中央政治局常委、全国政协主席{汪洋 < 主持人|讲话人>}主持会议并讲话。
该样例中人物并未在第一句话中出现,但是子类别的范围只能到第一句话结束,不能为了把人物属性包含在内而涵盖第二句话。
3) 嵌套规则
在出访、会议、外事活动、致电致信这四类事件中的子类别可以进行嵌套标注。事件中的子类别可以嵌套包含其他的标注项,但不得被其他标注项包含,子类别的标注范围应遵循最小且完备原则。此外,致电致信事件中的“事由”可以嵌套包含其他类别,会议事件中的“会议名称”可以嵌套包含“会议机构”。
③ {{中共中央政治局常务委员会 < 机构>}{3月18日 < 时间>}再次召开会议 < 子类别:政治局会议>},分析……重点工作,{习近平 < 主持人|讲话人>}总书记主持会议并发表重要讲话。
该样例中“召开会议”后面是与标注事件类别无关的句子,因此标注子类别时可以不将后面的句子包含在内。
1.4 特殊情况的处理建立高质量的标注语料库不仅需要建立完整的标注体系、标注规范和标注一致性方案,同时也需要标注人员具有相关领域的知识储备,并对标注规范有较深层次的理解。在标注过程中,以下几类特殊情况应分别予以不同的标注处理。
1) 事件类别划分的边界
一般情况下“访问”只出现在出访事件中,如果外事活动中出现了“访问”一词,则需要判断是出访还是来访,如果是来访则需要按照外事活动来标注。
④ 加拿大联邦参议员{胡子修 < 会见对象|对象类别: 人物>}一行访问湖北,省外侨办{胡应海 < 出席活动人>}副主任{会见 < 子类别: 会见会谈>}客人。
该样例中通过“加拿大联邦参议员”“访问湖北”等词可以判断出该事件属于来访,因此应该按照外事活动来标注。
2) 事件元素划分的界限
在考察调研事件中需要注意“地点”和“区域地点”的区别,如果考察调研的“地点”与事项类别的“区域地点”连续出现,则拆分的一般规则是“地点”标注到县或市,后面部分可以标注为“区域地点”。
⑤ {4月16日至17日 < 时间>},省委书记{娄勤俭 < 考察调研人>}就做好当前经济工作,在位于{无锡 < 地点>}{中环宜兴产业园 < 事项|事项类别: 区域地点>}……考察。
该样例中的“无锡”标注为“地点”,“中环宜兴产业园”标注为“区域地点”。
3) 子类别的范围
在致电致信事件中,标注子类别时,如果文中未出现贺电、贺信等词,本文的处理是需要标注体现子类别的一句话。
⑥ {{全国妇联 < 致电致信人>}致电{中国国家女子排球队 < 对象|对象类别: 人群>},热烈{祝贺中国女排获得2019女排世界杯冠军 < 事由>} < 子类别: 贺电>}。
该样例中未出现具体体现子类别的词,但根据“致电”及“祝贺……冠军”等词可以确定该事件的子类别为贺电,此时子类别的范围需要包含整个句子。
2 语料库构建 2.1 数据预处理本次标注的数据来自2019年度新华网的时政新闻,原始语料中存在一些乱码、空文本、html标签信息以及一些完全重复或主题事件重复的情况,这些问题语料会影响标注的效率和质量,因此需要进行数据清洗。由于不同事件类别的标注有差异,为了提高标注效率,在标注前需要对该批数据进行类别的划分,分为出访、会议、考察调研、致电致信以及外事活动五个类别。图 1展示了具体的数据预处理过程。原始数据共22 955篇,按照图 1的过程处理完成之后,共剩余21 455篇待标注文本。
![]() |
图 1 数据预处理过程 Fig. 1 Data preprocessing process |
为了提高标注效率,对面向医疗文本的实体及关系标注平台[10]进行二次开发部署,根据制定的标注体系对实体项进行修改,使之适用于时政新闻事件元素的标注。此外,在标注数据的即时分析和标注对比报告生成功能的基础上,根据标注语法定义,采用基于规则的方法对标注数据进行自动化的格式及内容检查。由于本次标注语料篇章数目较多,允许标注人员创建包含多个文件的标注任务,用不同的颜色区分未完成标注的文件与完成标注的文件,方便标注人员查找自己漏标的文件。标注平台界面如图 2所示,平台左侧显示任务信息,上方为实体项,不同的事件类别对应不同的实体项,最右侧显示标注结果,方便标注人员对标注结果进行修改。
![]() |
图 2 标注平台界面 Fig. 2 Annotation platform interface |
根据制定的标注规范,采用多轮迭代的模式进行规范的修订和标注工作,将整个标注过程分为试标注、正式标注和复查三个阶段。
在试标注阶段,标注人员学习标注规范及标注平台的操作流程,并对少量文本进行试标注。该阶段可以使标注人员了解时政新闻文本的标注特点并掌握标注平台的使用方法,同时可以检测平台的稳定性。试标注过程结束后,将结果生成对比分析报告,对不一致的地方统一讨论修改。该阶段迭代进行,直到达到较高的一致性,方可进入正式标注阶段。
在正式标注阶段,每一份新闻文本由两位标注人员参与标注,首先由一标人员对其进行标注并记录存疑的地方,二标人员在此基础上进行标注并记录存在的问题,并将所有问题进行分类,最终由时政新闻领域专家统一进行讨论并商讨出合理的解决方案。在此过程中,不断地对标注规范进行修改和完善。
在复查阶段,对标注文本统一进行自动化的检查,并将结果反馈给一标人员进行最终的修改。数据标注流程如图 3所示。
![]() |
图 3 数据标注流程 Fig. 3 Data annotation process |
相较于文献[11]使用的两阶段标注模式,本文添加复查阶段是由于标注人员只能对自己标注的文件进行自动检查,会遗漏一定数量的错误,因此需要对标注结果整体进行自动化的格式和内容方面的检查,以此来提高标注质量。
图 4展示了自动检查结果样式,检查结果主要分为提示信息(INFO)和警告信息(WARNING),提示信息需要标注人员确认是否需要修改,警告信息则必须进行修改。标注结束后,使用F1值[12]作为一致性指标的度量。
![]() |
图 4 自动检查结果展示 Fig. 4 Display of automatic inspection result |
本文构建的EACPN共标注了21 455篇标注文本,约1 500万字。语料库的数据统计情况如表 3所示,可以看出,会议事件与同量级的其他事件相比,所标注的事件元素最多,这是由于一篇会议语料中有时会存在多个子会议事件的情况,此外有一些会议事件中会存在多个出席人。
![]() |
表 3 EACPN数据统计 Tab. 3 EACPN data statistics |
图 5是对语料库中各事件元素数量的统计,这里的人物包括具体人名和团体名。由于时政新闻事件中除致电致信事件不存在地点的标注之外,其他类别事件中均包括人物、时间及地点,因此人物总数占事件元素总数的57.3%,其次是时间和地点总数,分别占事件元素总数的10.9%和11.8%。
![]() |
图 5 事件元素数量统计 Fig. 5 The number of event elements |
语料库构建一般选用Kappa值[13]和F1值作为标注一致性的评价指标。但在事件元素标注中,若把未标注的文本作为反例,则反例数量难以统计,该情况下F1值与Kappa值相近,故可以使用F1值来对标注语料进行一致性评价。具体做法是将一标人员(A1)的标注结果作为标准答案,计算二标人员(B1)标注结果的准确率(P)、召回率(R)以及F1值,计算公式为
$ P=\frac{\mathrm{A} 1 \text { 和 } \mathrm{B} 1 \text { 一致的标注结果总数 }}{\mathrm{B} 1 \text { 的标注总数 }}, $ | (1) |
$ R=\frac{\mathrm{A} 1 \text { 和 } \mathrm{B} 1 \text { 一致的标注结果总数 }}{\mathrm{A} 1 \text { 的标注总数 }} \text {, } $ | (2) |
$ F 1=\frac{2 \times P \times R}{P+R}。$ | (3) |
在将独立标注语料与最终语料进行比较时,将最终语料视作A1,即为标准答案,独立标注语料视为B1。按照上述方法分别对出访、会议、考察调研、致电致信和外事活动进行标注一致性检验,表 4列出了这五类事件的标注一致性分析F1值。可以看出,不同的事件类型其标注一致性是有差别的,主要原因是事件本身的复杂程度和标注者对事件元素的理解不同,但整体标注一致性仍然达到了较高水平。文献[14]指出,标注一致性超过80%时,可以认为语料的一致性是可信赖的。
![]() |
表 4 标注一致性分析 Tab. 4 Annotation consistency analysis |
为了方便后续研究,根据本文第1.2小节对标注语法的定义,所构建的EACPN存储形式如图 6所示,主要包括标注的文本、文本ID、事件元素、元素角色、事件类型以及事件子类别的存储。
![]() |
图 6 语料库存储形式 Fig. 6 Corpus storage form |
本文构建的EACPN主要包含出访、会议、考察调研、外事活动和致电致信五类事件,每类事件包含相应的事件元素,以事件为中心对语料库进行展示,具体示例如图 7所示。
![]() |
图 7 可视化展示示例 Fig. 7 Visual display example |
本文在对时政新闻文本特点进行分析的基础上,参考ACE2005及CEC语料的类型定义,制定了完整的标注规范,遵循这一规范建立了时政新闻文本事件标注规程以及标注一致性控制方案。经过对时政新闻文本标注方案的设计和不断完善,并对新闻语料进行多轮标注,EACPN已完成2万余篇时政新闻,约29万个句子的事件元素和子类别标注。在此基础上,对语料库进行一系列的数据统计和分析,有助于发现不同事件类别时政新闻文本的一些规律。这种细粒度的时政新闻文本事件标注语料库可以为今后的事件抽取研究和时政新闻事件知识图谱的构建打下基础。
[1] |
ZHANG X L, DU C L, LI P S, et al. Knowledge graph completion via local semantic contexts[C]//Proceedings of the International Conference on Database Systems for Advanced Applications. Cham: Springer International Publishing, 2016: 432-446.
( ![]() |
[2] |
DENG J S, QIAO F C, LI H Y, et al. An overview of event extraction from twitter[C]//Proceedings of the International Conference on Cyber-enabled Distributed Computing and Knowledge Discovery. Piscataway: IEEE Press, 2015: 251-256.
( ![]() |
[3] |
KEJRIWAL M. Domain-specific knowledge graph construction[M]. Cham: Springer International Publishing, 2019.
( ![]() |
[4] |
PISKORSKI J, TANEV H, ATKINSON M, et al. Online news event extraction for global crisis surveillance[M]//Transactions on Computational Collective Intelligence V. Cham: Springer International Publishing, 2011: 182-212.
( ![]() |
[5] |
DODDINGTONG R, MITCHELL A, PRZYBOCKIM A, et al. The automatic content extraction (ACE) program-tasks, data, and evaluation[C]//Proceedings of the International Conference on Language Resources and Evaluation. Lisbon: European Language Resources Association, 2004: 837-840.
( ![]() |
[6] |
PETRONI F, RAMAN N, NUGENT T, et al. An extensible event extraction system with cross-media event resolution[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2018: 626-635.
( ![]() |
[7] |
ZHOU D Y, ZHANG X, HE Y L. Event extraction from twitter using non-parametric bayesian mixture model with word embeddings[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2017: 808-817.
( ![]() |
[8] |
LEETARU K, SCHRODT P A. GDELT: global data on events, location and tone, 1979-2012[J]. Annual meeting of the international studies association, 2013, 2(4): 1-49. ( ![]() |
[9] |
刘炜, 王旭, 张雨嘉, 等. 一种面向突发事件的文本语料自动标注方法[J]. 中文信息学报, 2017, 31(2): 76-85. LIU W, WANG X, ZHANG Y J, et al. An automatic-annotation method for emergency text corpus[J]. Journal of Chinese information processing, 2017, 31(2): 76-85. ( ![]() |
[10] |
张坤丽, 赵旭, 关同峰, 等. 面向医疗文本的实体及关系标注平台的构建及应用[J]. 中文信息学报, 2020, 34(6): 36-44. ZHANG K L, ZHAO X, GUAN T F, et al. A platform for entity and entity relationship labeling in medical texts[J]. Journal of Chinese information processing, 2020, 34(6): 36-44. DOI:10.3969/j.issn.1003-0077.2020.06.006 ( ![]() |
[11] |
昝红英, 窦华溢, 贾玉祥, 等. 基于多来源文本的中文医学知识图谱的构建[J]. 郑州大学学报(理学版), 2020, 52(2): 45-51. ZAN H Y, DOU H Y, JIA Y X, et al. Construction of Chinese medical knowledge graph based on multi-source corpus[J]. Journal of Zhengzhou university (natural science edition), 2020, 52(2): 45-51. DOI:10.13705/j.issn.1671-6841.2019383 ( ![]() |
[12] |
HRIPCSAK G, ROTHSCHILD A S. Agreement, the F-measure, and reliability in information retrieval[J]. Journal of the American medical informatics association, 2005, 12(3): 296-298. DOI:10.1197/jamia.M1733 ( ![]() |
[13] |
JEAN C. Assessing agreement on classification tasks: the Kappa statistic[J]. Computational linguistics, 1996, 22(2): 249-254. ( ![]() |
[14] |
ARTSTEIN R, POESIO M. Inter-coder agreement for computational linguistics[J]. Computational linguistics, 2008, 34(4): 555-596. DOI:10.1162/coli.07-034-R2 ( ![]() |