武汉大学学报(工学版)   2018, Vol. 51 Issue (1): 91-94

文章信息

鄢煜尘, 李蔡媛, 邱益鸣, 陈庆虎
YAN Yuchen, LI Caiyuan, QIU Yiming, CHEN Qinghu
基于因子分析的文本独立笔迹鉴定分类器
Text-independent classifier for handwriting verification based on factor analysis
武汉大学学报(工学版), 2018, 51(1): 91-94
Engineering Journal of Wuhan University, 2018, 51(1): 91-94
http://dx.doi.org/10.14188/j.1671-8844.2018-01-014

文章历史

收稿日期: 2017-01-11
基于因子分析的文本独立笔迹鉴定分类器
鄢煜尘, 李蔡媛, 邱益鸣, 陈庆虎     
武汉大学电子信息学院,湖北 武汉 430072
摘要:针对检材与样本笔迹字符内容较少情况下的笔迹鉴定问题,提出一种基于因子分析的文本独立笔迹鉴定新方法.该方法将影响书写笔迹特征距离的因素划分为书写风格的差异和字符形状结构的差异两类因子,然后通过两因子方差分析,分离出特征距离中的字符因子,通过文本依存方法获得文本独立笔迹鉴别分类器.实验证明,该方法得到一种高效的脱机中文笔迹鉴定分类器, 在近似实际情况的笔迹鉴别实验中得到良好的鉴别准确率.
关键词笔迹鉴定    文本独立分类器    因子分析    
Text-independent classifier for handwriting verification based on factor analysis
YAN Yuchen, LI Caiyuan, QIU Yiming, CHEN Qinghu     
School of Electronic Information, Wuhan University, Wuhan 430072, China
Abstract: In this paper, a text-independent classifier for handwriting identification based on factor analysis is proposed to address the problem when there are not enough characters in the training and testing handwriting documents. The elements affecting matching distances of handwriting features are decomposed into two classes, character factor and writing factor. Then two-way variance analysis mode is built to train these two factors and separate the character factor from the matching distances. Finally the text-independent classifier is obtained. This method works well in the experiments which are very close to the practical application, and it provides a feasible way for the application of computer handwriting verification.
Key words: handwriting verification     text-independent classifier     factor analysis    

笔迹鉴别是根据手写笔迹确定笔迹书写人身份的一门科学技术,根据所考察的对象可分为两个类别:文本依存方法和文本独立方法.文本依存方法依据检材和样本中的相同字进行比较,比如文献[1]中提取单词中笔画的上笔和下笔特征,利用动态时间规整来鉴定书写人身份,文献[2]提出利用多尺度特征训练离散隐马尔科夫模型来进行签名鉴定,文献[3]以局部特征匹配与投票进行关键词提取从而将全文档的笔迹鉴别转化为相同字的笔迹鉴别,文献[4]提出利用拉普拉斯谱分析和动态时间规整方法进行签名鉴定.实验条件下文本依存笔迹鉴别方法通常依靠几个相同字就可以获得很好的鉴别准确率.文本独立方法则通常是比较笔迹文本的布局特征和字符大致形态,需要大篇幅的笔迹样本才能取得理想的鉴别效果.文献[5]提出利用小波系数训练隐马尔科夫模型进行中文笔迹鉴定,时耗远小于Gabor特征.文献[6]提出利用扫描笔迹图片中的纹理特征和字符形状建立概率密度函数来进行文本无关的书写人鉴定.文献[7]提出利用两因子分析将特征矩阵中的字符因子分离出来,从而获得文本独立的笔迹特征进行笔迹鉴定.文献[8-9]提出基于改进的网格微结构特征和加权Manhattan距离方法进行文本无关的笔迹鉴别.文献[10-11]通过提取书写笔迹的纹理特征并结合Gabor滤波器进行笔迹鉴定.文献[12]利用笔迹轮廓的像素灰度级分布来进行书写人鉴定.文献[13]提出一种基于余弦变换(DCT)的动态签名来实现鉴别.文献[14]提出一种基于小波变换的脱机签名验证方法.

在实际的笔迹鉴定中,当检材笔迹或样本笔迹的字符数量很少且内容不同时,传统的文本独立的鉴别方法就不适用,而文本依存方法受字符内容不同限制每个字符的特征距离不能直接用于匹配.为了解决这种情况下的笔迹鉴定问题,本文在提取方向指数直方图特征并求得每个字符距离后,将影响笔迹特征距离的因素划分为书写因素和字符形状结构因素两个大类,通过方差分析方法[15]得到这两个因子的无偏估计值,然后通过数据挖掘和加权去除字符形状结构因素对特征距离的影响,得到了基于文本依存方法的文本独立笔迹鉴别分类器,提高了笔迹鉴定的准确率,在近似实际情况的笔迹鉴定实验中获得了很好的准确率.

1 特征距离影响因子分析

因为书写内容、书写工具、书写介质、书写时间、书写环境以及书写人的心理和生理因素的影响,手写笔迹表现出随机性差异,这些因素也影响到笔迹鉴别时的特征距离值.本文将影响特征距离的因素分为两类:笔迹书写风格的差异(与笔迹书写人相关,简称书写因子)、汉字的字符形状结构差异(与汉字字符相关,简称字符因子).其中书写因子是笔迹鉴别的基础,而字符因子则是影响鉴别准确率的不利因素.我们划分影响因子的目的是将不利于分类鉴别的字符因子从特征距离中分离出来,获得文本独立的分类器,然后在分类器综合的过程中就不必再考虑字符的因素,这种处理能够大幅简化分类决策过程,提高鉴别准确率.

首先讨论这两类因子对特征距离影响的显著性,根据方差分析方法的前提条件,选取N份样本笔迹,其编号为i=1, 2, …, N,设定检材笔迹与每份样本笔迹均有同样字符的M个相同字,其编号为j=1, 2, …, M,第i份样本笔迹中与检材笔迹的第j个相同字符的方向指数特征距离为dij.

设特征距离dij的概率分布为dij~N(μij, σ2),并设:

    (1)
    (2)
    (3)

此时就可以用方差分析法来分析dij,不考虑书写因子与字符因子的交互效应,可建立影响笔迹特征距离的书写因子和字符因子的方差分析模型如下:

    (4)

其中: αi=μi·-μi=1, 2, …, Nαi为样本笔迹编号i的书写因素对dij所产生的效应,∑αi=0;βj=μ·j-μj=1, 2, …, Mβj为编号j的字符对dij所产生的效应,有∑βj=0;εij为均值为0的随机误差,εij~N(0, σ2).

引入记号:

    (5)
    (6)
    (7)

则有

总平方和:

    (8)

书写因素效应平方和:

    (9)

字符因素效应平方和:

    (10)

误差平方和:

    (11)

取显著水平为α,可以得到书写因素的显著性假设成立的条件为

    (12)

字符因素的显著性假设成立的条件为

    (13)

通过计算检材笔迹与样本笔迹之间相同字的方向指数特征距离,可以得到每个字的特征距离,然而实验证明不同字符内容的距离大小不一样,笔画越复杂的字符匹配距离越小,笔画越简单的字符匹配距离越大.因此这些单个字的特征距离并不能直接综合用于判别样本笔迹与检材笔迹之间的相似程度,需要对这些单个距离值加以变换,去除字符因子的影响,得到文本无关的笔迹鉴定分类器.从上文对表达式(4)的验证可知,我们可以对dij进行因子分离,得到仅剩书写因子的文本独立分类器,然后就可以很简单地对所有单个字符的分类器进行综合.

理想情况下,μ·j= d·j,因此就有

    (14)

很显然仅含有书写因子,因此下式中的就可以作为文本独立的笔迹验证分类器:

    (15)
2 实验分析

为了检验书写因素和字符形状结构因素的显著性假设,本文设计了一份实验样本,由10个人每人重复书写8遍得到8份样本笔迹,然后在每份样本笔迹中选取168个字符(21个不同的字符重复书写),经过去除斑点、格线等噪声后得到归一化字符图片(见图 1).

图 1 方差分析实验笔迹及其字符图片 Figure 1 Handwriting and characters' images of the variance analysis

提取所有字符的方向指数特征并求得特征距离,得到方差分析结果(见表 1).

表 1 方差分析结果表 Table 1 The results of the variance analysis
方差来源 平方和 自由度 均方 F
书写因子 1.376 9 9 0.153 21.539 5
字符因子 10.628 0 167 0.063 6 8.960 2
误差 10.675 2 1 503 0.007 1
总和 22.680 1

表 1数据可以看到,取α=0.001查表得知:

    (16)

说明FA=21.539 5,远大于Fα,所以书写因素对特征距离的影响是高度显著的,这也是笔迹鉴别能够进行的依据所在.

α=0.001,有

    (17)

说明FB=8.960 2,远大于Fα(M-1, (N-1)(M-1)),因此字符因素对特征距离的影响也是高度显著的.

为了验证上式中分类器的文本独立特性,再一次在上文所建立的样本数据库中对进行两因子方差分析,得到因子分析结果见表 2.

表 2 方差分析结果 Table 2 The results of the variance analysis
方差来源 平方和 自由度 均方 F
书写因子 0.292 8 9 0.032 5 23.804 5
字符因子 0.306 4 167 0.001 9 1.342 6
误差 2.053 9 1 503 0.001 4
总和 2.653 1

表 2中可以看到,字符因素的影响已经不显著,因此特征距离加权后的Dij可以看作文本独立的结果.

为了验证式(15)中文本独立分类器的鉴别效果,本文利用收集到的相同人书写的110份笔迹对和不同人书写的150份笔迹对进行笔迹验证实验,所有笔迹书写时的书写内容、书写工具、书写介质以及书写时间均由书写人随机决定.将所有的笔迹对进行比较,两份笔迹的相同字在5到15个之间,通过特征距离的直接均值和加权后的近似文本独立特征距离均值两种分类器方式得到同一人书写和不同人书写的笔迹验证实验结果,见表 3.

表 3 笔迹验证实验结果 Table 3 The result of the verification experiments
%
分类器 同一人认定 不同人认定 错误率
直接均值 81.6 85.4 16.20
文本独立 94.7 96.3 4.38

实验结果表明,方向指数直方图法作为一种典型的文本依存笔迹鉴别方法,直接使用相同字的特征距离均值作为分类决策依据时,鉴别准确率并不好.但是在经过由数据挖掘得到的信息加权后,用获得的近似文本独立分类器进行笔迹验证时,准确率得到了很大程度的提高.

3 结束语

因为书写内容的随机性以及不同书写人书写风格的相似性,以及字符因素对特征距离影响的显著性,在实际的一对一的笔迹验证过程中,采用平均特征距离作为分类器时的鉴别准确率一般都不是很好.本文首次将影响鉴别准确率的因素划分为书写风格的差异性和字符形状结构的差异性两类因子,利用方差分析方法建立两因子方差分析模型,验证了书写因子和字符因子对采用方向指数直方图法获得的特征距离的影响具有高度显著性,并通过数据挖掘得到的信息对特征距离进行加权变换,获得了基于文本依存方法的文本独立笔迹鉴别分类器,在接近实际情况的笔迹验证实验中较大程度上提高了鉴别准确率,为计算机笔迹验证的实际应用开辟了切实可行的途径.

当然,因为实际鉴别中情况的复杂性,只有一种笔迹鉴别方法还是很难解决所有的实际问题,本文提出的基于方向指数直方图法的文本独立分类器只能作为实际应用系统的一部分.笔者通过本文的分析结果,在综合多种方法后实现的计算机笔迹验证软件系统目前已经成功地在多个城市得到实际应用.

参考文献
[1] Sesa-Nogueras E, Faundez-Zanuy M. Biometric recognition using online uppercase handwritten text[J]. Pattern Recognition, 2012, 45(1): 128–144. DOI:10.1016/j.patcog.2011.06.002
[2] Batista L, Granger E, Sabourin R. Dynamic selection of generative-discriminative ensembles for off-line signature verification[J]. Pattern Recognition, 2012, 45(4): 1326–1340. DOI:10.1016/j.patcog.2011.10.011
[3] 陈睿, 唐雁. 基于关键词提取的手写汉字文本依存笔迹鉴别技术[J]. 四川大学学报:自然科学版, 2013(4): 719–727.
Chen Rui, Tang Yan. Writer verification for chinese handwritten document based on keywords extraction[J]. Journal of Sichuan University (Natural Science Edition), 2013(4): 719–727.
[4] Li C, Peng L, Liu C, et al. On-line signature verification method by Laplacian spectral analysis and dynamic time warping[C]// IS&T/SPIE Electronic Imaging, 2013.
[5] He Z Y, You X G, Tang Y Y. Writer identification of chinese handwriting documents using hidden Markov tree model[J]. Pattern Recognition, 2008, 41(4): 1295–1307. DOI:10.1016/j.patcog.2007.08.017
[6] Bulacu M, Schomaker L. Text-independent writer identification and verification using textural and allographic features[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(4): 701–717. DOI:10.1109/TPAMI.2007.1009
[7] 鄢煜尘, 陈庆虎, 袁凤, 等. 基于特征融合的脱机中文笔迹鉴别[J]. 模式识别与人工智能, 2010(2): 203–209.
Yan Yuchen, Chen Qinghu, Yuan Feng, et al. Writer identification of offline chinese handwriting documents based on feature fusion[J]. Pattern Recognition and Artificial Intelligence, 2010(2): 203–209.
[8] 李昕, 丁晓青. 基于改进微结构特征的笔迹鉴别[J]. 清华大学学报:自然科学版, 2010(4): 595–600.
Li Xin, Ding Xiaoqing. Writer identification based on improved microstructure features[J]. Journal of Tsinghua University:Science and Technology, 2010(4): 595–600.
[9] 李昕, 丁晓青, 彭良瑞. 一种基于微结构特征的多文种文本无关笔迹鉴别方法[J]. 自动化学报, 2009, 35(9): 1199–1208.
Li Xin, Ding Xiaoqing, Peng Liangrui. A microstructure feature based text-independent method of writer identification for multilingual handwritings[J]. Acta Automatica Sinica, 2009, 35(9): 1199–1208.
[10] Said H E S, Tan Tieniu, Baker K D. Personal identification based on handwriting[J]. Pattern Recognition, 2000, 33(1): 149–160. DOI:10.1016/S0031-3203(99)00006-0
[11] Zhu Y, Tan T, Wang Y. Biometric personal identification based on handwriting[C]//Pattern Recognition, 15th International Conference on IEEE, 2000, 2: 797-800.
[12] Wirotius M, Seropian A, Vincent N. Writer identification from gray level distribution[C]//2013 12th International Conference on Document Analysis and Recognition, IEEE Computer Society, 2003, 2: 1168.
[13] Rashidi S, Fallah A, Towhidkhah F. Feature extraction based DCT on dynamic signature verification[J]. Scientia Iranica, 2012, 19(6): 1810–1819. DOI:10.1016/j.scient.2012.05.007
[14] Chang H, Dai D, Wang P, et al. Online signature verification using wavelet transform of feature function[J]. J. Inf. Comput Sci., 2012, 9: 3135–3142.
[15] 盛骤, 谢式千, 潘承毅. 概率论与数理统计[M]. 北京: 高等教育出版社, 2008.
Sheng Zhou, Xie Shiqian, Pan Chengyi. Probability and Statistics[M]. Beijing: Advanced Education Press, 2008.