越南语分词词典半监督集成构建算法

引用本文

刘伍颖, 王琳. 越南语分词词典半监督集成构建算法[J]. 郑州大学学报(理学版), 2018, 50(1): 60-65.

LIU Wuying, WANG Lin. Semi-supervised Ensemble Construction Algorithm of Vietnamese Word-segmentation Dictionary[J]. Journal of Zhengzhou University(Natural Science Edition), 2018, 50(1): 60-65.

基金项目

国家语委重点项目(ZDI135-26)；广东省高校特色创新项目(2015KTSCX035)；广东省哲学社会科学重点实验室招标项目(LEC2017WTKT002)

通信作者

王琳(1983—)，女，山东威海人，讲师，主要从事语料库语言学和翻译学研究，E-mail：lwang@xdsisu.edu.cn

作者简介

刘伍颖(1980—)，男，江西九江人，副教授，主要从事计算语言学和自然语言处理研究，E-mail：wyliu@gdufs.edu.cn

文章历史

收稿日期：2017-06-11

Contents Abstract Full text Figures/Tables PDF

越南语分词词典半监督集成构建算法

刘伍颖¹ , 王琳²

1. 广东外语外贸大学语言工程与计算实验室广东广州 510420;
2. 上海外国语大学贤达经济人文学院上海 200083

收稿日期：2017-06-11

基金项目：国家语委重点项目(ZDI135-26)；广东省高校特色创新项目(2015KTSCX035)；广东省哲学社会科学重点实验室招标项目(LEC2017WTKT002)

作者简介：刘伍颖(1980—)，男，江西九江人，副教授，主要从事计算语言学和自然语言处理研究，E-mail：wyliu@gdufs.edu.cn.

通信作者：王琳(1983—)，女，山东威海人，讲师，主要从事语料库语言学和翻译学研究，E-mail：lwang@xdsisu.edu.cn.

摘要：针对越南语分词词典构建问题，提出了一种新的半监督集成构建方法.该方法能够结合人工干预，从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器，并生成尽可能多的候选多音节词；其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器，接着越南语专家检测并修正3个单独的词典；最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力，实验结果表明，所提出的半监督集成构建方法是有效的，而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能.

关键词：半监督集成构建分词词典多音节词 n元音节词越南语

Semi-supervised Ensemble Construction Algorithm of Vietnamese Word-segmentation Dictionary

LIU Wuying¹ , WANG Lin²

1. Laboratory of Language Engineering and Computing, Guangdong University of Foreign Studies, Guangzhou 510420, China;
2. Xianda College of Economics and Humanities, Shanghai International Studies University, Shanghai 200083, China

Abstract: Considering the construction problem of Vietnamese word-segmentation dictionary, a novel semi-supervised ensemble construction method was proposed, which could detect multisyllabic words from a large-scale unlabeled Vietnamese corpus after a manual intervention. Firstly, a syllable-level n-gram word generator to build as many as possible candidate multisyllabic words was designed. Secondly, three statistical features were calculated, and related word extractors were implemented according to the preset threshold. Subsequently, three individual dictionaries were checked and corrected by Vietnamese experts. Finally, the dictionary combiner merged several dictionaries extracted by the extractors to form the ensemble one. The effectiveness of these dictionaries were evaluated through a direct experiment and an indirect experiment. The experimental results showed that semi-supervised ensemble construction method was effective, and the two Vietnamese word-segmentation algorithms with dynamically extracted dictionaries could achieve comparable performance.

Key words: semi-supervised ensemble construction word-segmentation dictionary multisyllabic word syllable-level n-gram word Vietnamese language

0 引言

越南语是一种以音节为基础的非通用语言，其文本在词与词之间并没有任何显式的形式分隔符.因此，越南语分词在很多自然语言处理应用中显得格外重要^[1].用于越南语分词的机读词典在存储内容方面仅仅需要保留多音节词，而这种基础资源在一定程度上决定着分词算法的性能.

计算技术的飞速发展带来了语言信息的爆炸式增长，各种语言中的新词汇不断涌现.但人工词典编纂是一种代价高昂的工作，而且人工编纂的时效性也极大限制了分词算法的提高.幸运的是，语言信息爆炸所产生的大规模越南语文本文档为越南语多音节词动态提取提供了一种新机遇^[2].已有研究表明，一些基于分词词典的越南语分词算法可以达到较高的性能^[3]，通过个性化定制一个单独的子词典能够使大词典在分词中发挥大性能^[4].本文主要研究越南语分词词典构建问题，并提出一种新的半监督集成构建方法，该方法能够结合人工干预，从大规模未标注越南语语料中提取多音节单词.

1 半监督集成构建算法 1.1 框架

半监督学习能够充分发挥大规模未标注语料的优势^[5]，又能够大大降低人工标注的需求^[6-7].集成学习能够组合多个单独的学习器以获得更优的结果^[8].因此，综合这两种机器学习方法的优势，提出一种新的半监督集成构建(semi-supervised ensemble construction, SEC)框架，如图 1所示.该框架输入大规模未标注越南语语料，根据预设阈值和人工干预最终生成3个单独词典DIC₁、DIC₂、DIC₃和1个集成词典DIC_E，并以此支撑词典分词算法的运行.此外，3个单词提取器人工检测后的正确单词形成一种动态反馈.当框架输入是在线实时数据流时，通过设置一定长度的时间窗口，动态反馈能够阻止以前提取并正确识别的单词，使得框架能够循环迭代并增量学习.

图 1 半监督集成构建框架 Figure 1 Semi-supervised ensemble construction framework

在图 1所示的SEC框架中，n元音节词产生器是一个重要部件，它负责生成尽可能多的候选多音节词.并且这一生成过程只需要n元音节词模型，而不需要额外的人工干预.接着，每个单词提取器根据统计特征值进行候选多音节词排序，通过对比预设的百分比阈值提取排在前面的多音节词，并提交给越南语专家进行检测并修正.专家检测修正的结果形成分词词典，并以动态反馈的形式发给n元音节词产生器.最后，词典合成器充分利用不同单词提取器的优势，合并这几个提取出的分词词典形成一个集成词典，这些单独的分词词典和集成词典可以被用于基于词典的分词器.

n元音节词模型蕴含丰富的有用特征^[9]，并且n值决定候选多音节词的总数.采用4种交叠n元音节词模型(2元模型、3元模型、4元模型、5元模型)来表示越南语多音节词，并通过统计数据进行进一步分析.利用Wiki Dump工具从互联网下载了越南语Wikipedia语料(viwiki-20170101-pages-articles.xml.bz2)，再通过Wikipedia Extractor软件抽取获得1 152 603篇越南语纯文本文档.根据上述4种n元音节词模型，从这些越南语文本文档中提取出10 849 903个候选多音节词，并为每个候选多音节词统计词频和出现文档频率.绘制词频-词秩和文档频率-词秩图，结果如图 2所示.针对两幅图中的数据分别拟合出趋势线，结果表明，词频分布和文档频率分布都近似遵循幂律，而泛在的幂律分布给去除低频词提供了一个机会^[10].

图 2 词频-词秩和文档频率-词秩 Figure 2 Word frequency versus rank and document frequency versus rank

1.2 算法

一个越南语单词可以由单个音节构成，也可以由空格连接起来的多个音节构成.在越南语文本中，空格是一种重载符，既可以表示单词内部的连接符，又可以表示单词之间的分隔符.因此，越南语多音节词提取任务可以定义为连续多音节的共现规律发现.如果几个音节倾向于高频共现，可以预判它们是一个多音节词.基于幂律分布支撑，可以通过统计候选多音节词的词频(WF)和出现文档频率(DF)两种简单特征，并根据预设的百分比阈值提取出一些高频共现多音节词，而这些高频词和高文档频率词往往是通用词汇.此外，词频除以文档频率(WFiDF)也是一种广泛用于自然语言处理的重要特征.通过统计WFiDF特征，往往能够提取专业词汇.

在SEC框架下所提出的越南语分词词典半监督集成构建算法如表 1所示.首先，循环调用ngram()方法生成候选多音节词(CMW).在这个过程中需要对越南语文本进行切片预处理，片段是由标点符号、阿拉伯数字、外来词分割开的越南语音节段.接着，分别调用3个单词提取器(WFextractor, DFextractor, WFiDFextractor).其中每个提取器运行3个方法：rank()方法根据统计特征值排序候选多音节词；truncate()方法根据预设阈值(T)截断低频词；sendfeedback()方法回传动态反馈.当然，每个提取器生成的词典还需要进行人工检测.最后，词典合成器运行merge()方法，将上述3个词典(DIC₁、DIC₂、DIC₃)去重合并成集成词典(DIC_E).3个单词提取器运行的并行性能够进一步提高算法的时空高效性.

表 1 越南语分词词典半监督集成构建算法 Table 1 SEC algorithm of Vietnamese word-segmentation dictionary

2 实验部分 2.1 语料与评价

实验中大规模未标注越南语语料就是1.1节所述的越南语Wikipedia语料，包括1 152 603篇越南语纯文本文档.在实验前实现了表 1的算法，能够从未标注语料中提取3个单独词典和1个集成词典.以下将通过直接实验和间接实验来评价越南语分词词典半监督集成构建算法的效力.在直接实验中，利用一个人工构建的包含159 214个越南语多音节词的大词典来模拟人工检测，以此计算每个词典的准确率.评价指标是在阈值T上的准确率(P@T).在间接实验中，针对每个构建出的词典，分别运行两个基于词典的分词算法MM(maximum matching)和RMM(reverse maximum matching).

分词算法运行使用公开的标准数据集(corpus for Vietnamese word-segmentation, CVWS)，该数据集包括305篇多领域越南语新闻文本，共7 807个已标注词边界的句子.使用国际bakeoff^[11]评价标准和相关评价方法，用准确率(P)、召回率(R)、F1值和错误率(ER)评价分词算法的性能.P、R、F1的值域为[0, 1]，1为最优，ER的值域也为[0, 1]，但0为最优.以上5项评价指标的计算公式为

$ P@T = V/W, $

(1)

$ P = C/\left( {C + M} \right), $

(2)

$ R = C/N, $

(3)

$ F1 = 2PR/\left( {P + R} \right), $

(4)

$ ER = M/N, $

(5)

式中：W表示自动提取器提取的多音节词数；V表示自动提取词典和人工构建词典共同包含的多音节词数；N表示人工分词语料的总词数；C表示自动分词结果中正确切分的词数；M表示自动分词结果中错误切分的词数.

2.2 结果与讨论

在直接实验中阈值分别被设置为20%、40%、60%、80%，由此产生的多音节词数和准确率结果如表 2所示.例如，根据词频排序10 849 903个候选多音节词，采用20%阈值能够提取前1 270个词，这其中有37.72%的词命中人工构建的大词典.表 2还显示了4个词典具有类似的结果趋势.尽管准确率不是特别高，但未命中的词中间还有很多是算法发现的新词.此外，准确率不高的原因是大规模未标注越南语语料和人工构建的大词典之间相互独立.

表 2 不同阈值下的词数和准确率 Table 2 Word number and precision at different thresholds

在间接实验中先分别在3个单独词典下运行MM算法，实验结果如表 3所示，3个单独词典中DIC₃性能最优.例如DIC₃词典下最优的P值(0.682 8)、R值(0.753 8)、F1值(0.691 0)、ER值(0.314 0)分别是当阈值为40%、20%、40%、60%时达到的.结果表明，WFiDF特征比单独的WF特征或DF特征更加有效.

表 3 MM算法在3个单独词典下的实验结果 Table 3 Experimental results of MM algorithm in three individual dictionaries

表 4展示了在3个单独词典下运行RMM算法的实验结果，和MM算法的实验结果具有相同的趋势，4项评价指标的最优值也是DIC₃词典的.

表 4 RMM算法在3个单独词典下的实验结果 Table 4 Experimental results of RMM algorithm in three individual dictionaries

图 3展示了集成词典下MM算法的实验结果，结果表明，阈值既非越大越好，又非越小越好，一个合适的阈值(40%)能够使集成词典下MM算法达到最优性能.尽管性能提升不太显著，但最优的F1值(0.706 3)还是超越了其他3个单独的词典，这也验证了越南语分词词典半监督集成构建算法在统计、计算、表示方面的优越性^[12].图 4展示了集成词典下RMM算法的实验结果，和MM算法的实验结果具有相同的趋势.但RMM算法4项评价指标的最优值均超过了MM算法.例如，MM算法的最优F1值为0.706 3，而RMM算法的最优F1值为0.713 3，这之间的差距主要是和越南语的语序有关.

图 3 MM算法在集成词典下的实验结果 Figure 3 Experimental result of MM algorithm in ensemble dictionary

图 4 RMM算法在集成词典下的实验结果 Figure 4 Experimental result of RMM algorithm in ensemble dictionary

通过对上述实验结果的分析，发现词频和文档频率这两种简单特征的统计能够有助于高效提取通用的越南语多音节词.正因为如此，所以仅仅4 847词的RMM算法能够达到0.685 7的F1值.尽管WFiDF特征的统计有助于提取专业词汇，但不幸的是CVWS数据集与越南语Wikipedia语料也没有很强的相关性，所以仍然有大量的“长尾”词被预设阈值剔除了.如果还想进一步提高分词词典的准确率，算法中的人工干预过程ManualFilter.check()至关重要.

为了展示词典的具体细节，给出了部分分词词典数据.表 5是阈值为40%时按照字母序显示的集成词典命中的前100个多音节词.该词典总共包含590 481个词，而如此之多的单词的确出乎人们的意料.经过辨认不难发现越南语复合韵母的新旧拼写形式差异也增加了单词规模.例如表 5中biên hoà和biên hòa就是这种原因的等义异形词，它们都表示“边和”这个越南地名.因此，可以通过编列复合韵母新旧拼写规则来进一步提高越南语分词词典的效率.

表 5 分词词典数据样例 Table 5 Data sample of word-segmentation dictionary

3 结论

研究了如何从大规模越南语文本文档中半监督构建分词词典，所提出的半监督集成构建算法充分利用了越南语连续多音节的高频共现.研究结果表明，采用动态提取词典的MM和RMM算法能够取得理想的结果.进一步的研究将关注其他知识对多音节词提取的影响，例如停用词、句法规则、语义上下文等.此外，为了进行越南语到汉语的有效处理，汉越词提取也是值得深入研究的有趣问题.同时希望将上述研究成果迁移到其他合适的亚洲语言，例如泰国语、日本语、汉语等.

参考文献

[1]	DINH Q T, LE H P, NGUYEN T M H, et al. Word segmentation of Vietnamese texts: a comparison of approaches [C] // Proceedings of the 6th International Conference on Language Resources and Evaluation. Marrakech, 2008: 1933-1936. (0)
[2]	TRUNG H L, ANH V L, DANG V H, et al. Recognizing and tagging Vietnamese words based on statistics and word order patterns [C] // Proceedings of the Advanced Methods for Computational Collective Intelligence. Berlin, 2013: 3-12. (0)
[3]	LIU W Y, LIN L. Probabilistic ensemble learning for Vietnamese word segmentation [C] // Proceedings of the 37th International ACM SIGIR Conference on Research and Development in Information Retrieval. Gold Coast, 2014: 931-934. (0)
[4]	LIU W Y, WANG L. How does dictionary size influence performance of Vietnamese word segmentation?[C] // Proceedings of the 10th International Conference on Language Resources and Evaluation. Portoro, 2016: 1079-1083. (0)
[5]	王红蔚, 席红旗, 孔波. 一种新的半监督支持向量机[J]. 郑州大学学报(理学版), 2012, 44(3): 66-68. (0)
[6]	VLACHOS A. Evaluating unsupervised learning for natural language processing tasks [C] // Proceedings of the 1st Workshop on Unsupervised Learning in NLP. Edinburgh, 2011: 35-42. (0)
[7]	姚冬冬, 袁方, 王煜, 等. 基于半监督DPMM的新闻话题检测[J]. 郑州大学学报(理学版), 2016, 48(3): 63-68. (0)
[8]	LIU W Y, WANG T. Online active multi-field learning for efficient email spam filtering[J]. Knowledge and information systems, 2012, 33(1): 117-136. DOI:10.1007/s10115-011-0461-x (0)
[9]	KANARIS I, KANARIS K, HOUVARDAS I, et al. Words versus character n-grams for anti-spam filtering[J]. International journal on artificial intelligence tools, 2007, 16(6): 1047-1067. DOI:10.1142/S0218213007003692 (0)
[10]	LIU W Y, WANG L, YI M Z. Power law for text categorization [C] // Proceedings of the 12th National Conference on Computational Linguistics. Suzhou, 2013: 131-143. (0)
[11]	SPROAT R, EMERSON T. The first international Chinese word segmentation bakeoff [C] // Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing. Sapporo, 2003: 133-143. (0)
[12]	DIETTERICH T G. Ensemble methods in machine learning [C] // Proceedings of the 1st International Workshop on Multiple Classifier Systems. Cagliari, 2000: 1-15. (0)