郑州大学学报(理学版)  2019, Vol. 51 Issue (2): 102-106  DOI: 10.13705/j.issn.1671-6841.2018155

引用本文  

米据生, 胡志勇, 李磊军, 等. 基于集合覆盖模型的冲突证据合成[J]. 郑州大学学报(理学版), 2019, 51(2): 102-106.
MI Jusheng, HU Zhiyong, LI Leijun, et al. Combination of Conflicting Evidence Based on Set Covering Model[J]. Journal of Zhengzhou University(Natural Science Edition), 2019, 51(2): 102-106.

基金项目

国家自然科学基金项目(61573127, 61502144);河北省博士后择优资助科研项目(B2016003013);河北省高等学校自然科学基金项目(QN2016133, QN2017095);河北省三三三人才工程培养项目(A2017002112);河北师范大学博士基金项目(L2015B01, L2017B19);河北师范大学硕士研究生创新项目(CXZZSS2018062)

通信作者

胡志勇(1992—), 男, 河北沧州人,主要从事证据理论、人工智能研究, E-mail: panghuyouxiang@163.com

作者简介

米据生(1966—), 男, 河北宁晋人, 教授, 主要从事证据理论、人工智能研究

文章历史

收稿日期:2018-05-21
基于集合覆盖模型的冲突证据合成
米据生1 , 胡志勇1 , 李磊军1 , 梁美社2     
1. 河北师范大学 数学与信息科学学院 河北 石家庄 050024;
2. 石家庄职业技术学院 河北 石家庄 050081
摘要:针对D-S证据理论在处理冲突证据时可能会造成处理结果与我们的直觉相悖的情况,在已有研究的基础上,运用集合覆盖理论,用几个非冲突子信息系统覆盖原来的带有冲突证据的信息系统,再利用D-S证据理论对每个子信息系统进行合成.最后利用概念支撑的思想定义了每个子系统的权重,合成最终的概率指派函数.所用的基于集合覆盖模型的冲突证据合成(combination of confilicting evidence based on set covering model, CCEM)的方法是对Dempeter定义组合规则的一种扩展.
关键词证据合成    冲突证据    集合覆盖    概念支撑    
Combination of Conflicting Evidence Based on Set Covering Model
MI Jusheng1 , HU Zhiyong1 , LI Leijun1 , LIANG Meishe2     
1. College of Mathematics and Information Science, Hebei Normal University, Shijiazhuang 050024, China;
2. Shijiazhuang University of Applied Technology, Shijiazhuang 050081, China
Abstract: In dealing with conflict evidence, D-S evidence theory might make the result and our intuition counter. The objective was to solve a problem by using the existing research and set covering model. The original information system with conflicting evidence was transformed into several sub-not-conflicting information systems. And then, it was used D-S evidence theory to fuse each sub information system. The idea of conceptual support was used to give the weights of each subsystem and get the final probability assignment function. This method was called combination of conflicting evidence based on set covering model(CCEM). It was worth noting that the method was an extension of the definition of Dempeter′s combination rules.
Key words: combining evidence    conflict evidence    set covering    conceptual suppor    
0 引言

不确定性推理[1]处理的是不清晰、不确定、不完全的信息.在描述及精确融合不确定信息时,D-S证据理论[2-3]体现出极高的灵活性和高效性.在不确定性推理、多源信息融合和决策分析等领域,D-S证据理论也具有极大影响.Dempster定义的组合规则[4]在对证据进行融合和更新方面是非常有效的, 它应用的前提条件是融合规则的各部分是清晰可靠的.然而在很多的实际应用中,这个条件往往过于苛刻.如果直接将Dempeter定义的组合规则用来处理不可靠的信息,特别是具有冲突的信息, 最终得到的结果可能会与我们的直觉相悖[5].因此,冲突证据的合成受到学者们的重视,大量的研究工作[6-10]也在这一背景下开展.集合覆盖问题作为一个经典的最优化问题,在很多领域也都有着广泛的应用[11-12],如人员调动、网络安全、资源分配等领域.文献[13]为解决实际生活中的问题,将集合覆盖问题同粗糙集理论[14-15]相结合提出了覆盖粗糙集模型,使得集合覆盖问题同信息系统的联系更加紧密.近年来利用集合覆盖的思想处理信息系统中的问题受到研究者的广泛关注[16-17].

本文提出了一种名为基于集合覆盖模型的冲突证据合成(CCEM)的方法,该方法运用了集合覆盖的思想及文献[18]中提出的概念支撑的思想.将带有冲突证据的信息系统用非冲突的信息系统来覆盖,之后利用概念支撑的思想定义每个子系统的权重,合成最终的概率指派函数,并给出具体的说明性实例.

1 预备知识

证据推理就是利用证据理论得到不确定推理.D-S合成公式可以综合不同专家的知识,从而在专家系统中得到普遍应用.下面介绍关于D-S证据理论的一些基本概念.

定义1[7]  设θ为一个非空有限集合,P(θ)为θ的幂集.集函数m:P(θ)→[0, 1],若满足以下条件:(1) m(∅)=0;(2) $\sum\limits_{A \subseteq \theta } {m\left( A \right)} $=1, 则称m为一个mass函数.m(A)表示对事件A的支持程度.mass函数通常也被叫做基本概率指派函数.

定义2[19]  设m1m2为定义在集合θ下的两个相互独立的基本概率指派函数.称⊕为两个相互独立的基本概率指派函数的合成运算,那么m1m2(A)= $\frac{1}{N}\sum\limits_{B \cap C = A} {{m_1}\left( B \right){m_2}\left( C \right)} $,其中$N = \sum\limits_{B \cap C \ne \emptyset } {{m_1}\left( B \right){m_2}\left( C \right)} $.为方便起见,把m1m2(A)简记为m(A).值得注意的是,m(A)仍构成集合θ下的一个基本概率指派函数.对于n个指派函数的情况,利用迭代的思想,同样可以合成θ下的一个基本概率指派函数m1m2⊕…⊕mn(A)=$\frac{1}{N}\sum\limits_{\bigcap\limits_{i = 1}^n {{E_j} = A} } {\prod\limits_{i = 1}^n {{m_i}\left( {{E_j}} \right)} } $,其中:$N = \sum\limits_{\bigcap\limits_{i = 1}^n {{E_j} \ne \varphi } } {\prod\limits_{i = 1}^n {{m_i}\left( {{E_j}} \right) > 0} } $,Ejθ.

2 基于集合覆盖模型的冲突证据合成(CCEM)

首先给出冲突评价的定义.

定义3  设mimj为定义在集合θ下的两个相互独立的基本概率指派函数.若存在集合Aθ, 使得|mi(A)-mj(A)| > α,则称mimj为在α水平下的冲突评价,α为评价容忍度,α∈(0,2].

定义4  θ为一个非空有限集,M={m1, m2, …, mn}为n个专家给出的专家指派系统, mi为第i个专家给出的关于集合θ的mass函数, 称MiM为专家i协调空间,若Mi满足以下条件:(1) miMi;(2)对∀Aθ, ∀mjMi, 有|mi(A)-mj(A)|≤ $\frac{\alpha }{2}$.

命题1  {Mi|i=1, 2,…,n}构成M的一个覆盖.

证明  由定义4可知,n个专家构成的专家指派系统,有n个专家协调空间M1M2,…,Mn与之对应,并且miMi,而M={m1, m2, …, mn}.自然有$\bigcup\limits_{i = 1}^n {{M_i}} \supseteq M$.因此,{Mi|i=1, 2,…,n}构成M的一个覆盖.

命题2  Mi为非冲突的专家指派系统.

证明  由于在专家i协调空间中,任意两个指派函数mj, mkMi,都有|mi(A)-mj(A)|≤(α/2)和|mi(A)-mk(A)|≤(α/2)成立,则|mj(A)-mk(A)|=|mj(A)-mi(A)+mi(A)-mk(A)|≤|mi(A)-mj(A)|+|mi(A)-mk(A)|≤α, 所以Mi为非冲突的专家指派系统.

由命题2可知,Mi中的基本概率指派函数都不冲突,因此可以对Mi中的基本概率指派函数运用定义2中的D-S合成公式进行合成.

定义5  mi为对专家i协调空间中的mass函数进行D-S合成后所得到的概率指派函数, 集合Mi的基数|Mi|称为专家指派系统对指派函数mi的支撑[18], 称βi=(|Mi|)/(|M|)为专家指派系统对指派函数mi的支持率.

定义6  称函数m*为专家协调空间复合函数,m*(A)=$\sum\limits_{i = 1}^n {{\beta _i}{m^i}\left( A \right)} $.

可以看到,合成的专家协调空间复合函数m*并不一定满足mass函数的条件,下面将对m*进行修正,使得所有事件的指派和为1.

定义7  函数m*为定义在集合θ下的合成的概率指派函数,m*(A)=m*(A)/($\sum\limits_{B \subseteq \theta } {{m^ * }\left( B \right)} $),Aθ.

命题3  m*是集合θ下的mass函数.

证明  (1)由于任意的概率指派函数mi(∅)=0,所以对任意的imi(∅)=0.而m*(∅)=$\sum\limits_{i = 1}^n {{\beta _i}{m^i}\left( \emptyset \right)} $,可求得m*(∅)=0.于是有m*(∅)=0/($\sum\limits_{B \subseteq \theta } {{m^ * }\left( B \right)} $),所以m*(∅)=0.

(2) $\sum\limits_{A \subseteq \theta } {{m_ * }\left( A \right)} $=($\sum\limits_{A \subseteq \theta } {{m^ * }\left( A \right)} $)/($\sum\limits_{B \subseteq \theta } {{m^ * }\left( B \right)} $)=1.因此,m*构成集合θ下的mass函数.

下面给出CCEM的算法.

输入:关于集合θ的专家指派系统M,评价容忍度α.

输出:合成的概率指派函数m*.

步骤1  生成专家协调空间M1M2,…,Mn.

步骤2  对专家i协调空间中的mass函数进行D-S合成,得到其概率指派函数mi.

步骤3  计算专家指派系统中对指派函数mi的支持率βi.

步骤4  求得专家协调空间复合函数m*.

步骤5  计算最终合成的概率指派函数m*.

为了更好地理解本算法,下面给出一个具体的说明性实例.

  集合θ={a, b},M={m1, m2, …, m5}是由5名专家构成的专家指派系统,它们之间的关系如表 1所示.

表 1 专家指派表 Tab. 1 Expert Assignment Table

α=0.8时,可知m1m2为两个冲突的证据.于是,可采用文章中定义的CCEM方法.首先,求出专家i协调空间.M1={m1, m3}; M2={m2, m4}; M3={m1, m3}; M4={m2, m4, m5}; M5={m4, m5}.

对上面5个信息系统运用D-S合成公式求得mi及其支持率βi为:

$ \begin{array}{*{20}{c}} {{m^1}\left( {\{ a\} } \right) = 7/8, {m^1}\left( {\{ b\} } \right) = 1/8, {m^1}\left( {\{ \theta \} } \right) = 0, {\beta _1} = 2/5;}\\ {{m^2}\left( {\{ a\} } \right) = 17/97, {m^2}\left( {\{ b\} } \right) = 75/194, {m^2}\left( {\{ \theta \} } \right) = 85/194, {\beta _2} = 2/5;}\\ {{m^3}\left( {\{ a\} } \right) = 7/8, {m^3}\left( {\{ b\} } \right) = 1/8, {m^3}\left( {\{ \theta \} } \right) = 0, {\beta _3} = 2/5;}\\ {{m^4}\left( {\{ a\} } \right) = 17/81, {m^4}\left( {\{ b\} } \right) = 205/324, {m^4}\left( {\{ \theta \} } \right) = 51/324, {\beta _4} = 3/5;}\\ {{m^5}\left( {\{ a\} } \right) = 10/41, {m^5}\left( {\{ b\} } \right) = 49/84, {m^5}\left( {\{ \theta \} } \right) = 15/84, {\beta _5} = 2/5.} \end{array} $

专家协调空间复合函数m*

$ {m^*}\left( {\{ a\} } \right) = 2\ 133\ 814/2\ 147\ 580, {m^*}\left( {\{ b\} } \right) = 1\ 875\ 467/2\ 147\ 580, {m^*}\left( {\{ \theta \} } \right) =\\ 736\ 347/2\ 147\ 580. $

合成的概率指派函数m*

$ {m_*}\left( {\{ a\} } \right) = 2\ 133\ 814/4\ 745\ 628, {m_*}\left( {\{ b\} } \right) = 1\ 875\ 467/4\ 745\ 628, {m_*}\left( {\{ \theta \} } \right) =\\ 736\ 347/4\ 745\ 628. $
3 同经典D-S合成的比较

将CCEM的方法同经典D-S合成的方法进行对比.首先,对上节例中的专家指派系统直接进行D-S合成.由定义2,$N = \sum\limits_{\bigcap\limits_{j = 1}^5 {{E_j} \ne \varphi } } {\prod\limits_{i = 1}^5 {{m_i}\left( {{E_j}} \right)} } $=1 089/2 592.进而可以求得运用经典D-S合成公式后的专家指派函数mm({a})=833/1 089,m({b})=256/1 089,m({θ})=0.在CCEM的方法中,取α=2,可求得M1=M2=M3=M4=M5=M={m1, m2, …, m5},β1=β2=β3=β4=β5=1.于是有m1=m2=m3=m4=m5=mm*({a})=4 165/1 089,m*({b})=1 280/1 089,m*({θ})=0.并求得合成的概率指派函数m*m*({a})=833/1 089,m*({b})=256/1 089,m*({θ})=0.

由上面的对比可知,直接运用D-S合成公式对专家指派系统进行概率合成,同CCEM中α=2时的结果相一致.

命题4  CCEM是对Dempster定义的组合规则的一种扩展.

证明  设M={m1, m2, …, mn},为n个专家给出的关于集合θ的专家指派系统,直接运用D-S合成公式后的专家指派函数为m.在CCEM方法中,取α=2,则M1=M2=…=Mn=M,β1=β2=…=βn=1,m1=m2=…=mn=m,专家协调空间复合函数m*=nm.由此可得到合成的概率指派函数m*=nm/n=m.

4 对参数取值的说明

第三部分中限定评价容忍度α的取值范围为(0, 2],而0≤mi(A)≤1, 0≤mj(A)≤1.故mi(A)-mj(A)≤1,即当α∈(1, 2]时,可以认为整个信息系统是不冲突的.但是在CCEM的方法中,评价容忍度α还关系到专家协调空间的选取,当α取(1, 2]中不同数值时,可能会造成专家i协调空间不同,进而导致最后合成的概率指派函数m*的不同.其实,这一点同我们自然语言的表述是一致的.当α∈(0, 1]时,认为原来的专家指派空间中,专家意见相差较大,冲突比较激烈.当α∈(1, 2]时,认为专家之间的意见大体是一致的,有一些小的分歧.而第三部分已经证明CCEM的方法是经典D-S合成的扩展,那么它不仅可以用于对带有冲突证据的专家指派系统进行证据合成,还可以用于对不带冲突的专家指派系统进行证据合成.所以不管专家意见本身冲突的大小,都可以应用CCEM的方法.并且即使专家意见大体一致,仅有小分歧,根据研究者对这些小分歧的容忍程度,最终合成的概率指派函数m*也应是不同的.

综上所述,当研究者认为专家意见相差较大时,取α∈(0, 1];当研究者认为专家意见大体一致时,取α∈(1, 2].

5 算法分析

对证据理论的研究中,研究者们在经典D-S合成的基础上给出了很多处理冲突证据的方法,其中应用比较广泛的方法是Yager[7]合成、Murphy[8]合成以及孙全[17]定义的合成方法.本节运用这几种算法对文中例子进行合成对比得出CCEM方法的特点.Murphy合成是将n个专家对同一事件指派的平均值作为该事件的基本概率指派值,之后运用经典的D-S合成公式对新求得的指派函数迭代n-1次, 合成最终的基本概率指派函数.但Murphy合成的结果只是对数据源进行了简单的平均,没有考虑到数据的可靠性问题.Yager合成是将所有的冲突证据全部赋给未知项,这样做虽然可以处理高冲突证据,但是可能会造成对冲突证据分配的不公.为此,文献[20]引入名为可信度的变量,重新对冲突证据进行分配.

下面将利用本文的例子对以上3种方法和本文方法的合成结果作对比,如表 2所示.在基于集合覆盖模型的冲突证据合成(CCEM)的方法中,取α=0.8时的结果同运用其他方法得到的合成结果区别比较明显.并且在本文例子中,m1m3给出事件{a}的指派值大于事件{b},m2m4m5给出事件{a}的指派值小于事件{b}.对于事件θ,除m2给出的指派值较高,其他专家给出的指派值均较低.这与CCEM方法得到的对事件{a}、{b}的指派值相对平均且明显高于事件θ的情况较吻合.

表 2 融合结果 Tab. 2 Combination results

值得注意的是,CCEM的方法可以通过控制评价容忍度α来改变专家协调空间.相较于其他的融合方法,CCEM的方法灵活性更高.在融合过程中,CCEM的方法更加注重数据之间的联系,使得信息表中的信息被利用的更加充分.

6 结束语

冲突证据的合成一直受到学界的重视.本文在已有的研究基础上,提出了一种基于集合覆盖模型的冲突证据合成(CCEM)方法.讨论了该方法同经典D-S合成方法的关系.CCEM的方法不仅可以用于对带有冲突证据的专家指派系统进行证据合成,还可以用于对不带冲突的专家指派系统进行证据合成.文章还给出了CCEM算法同其他算法的比较.由于mass函数同信任函数与似然函数关系紧密,如何在带有冲突证据的专家指派系统中求得信任函数与似然函数, 将成为我们未来研究的课题.

参考文献
[1]
于洪, 陈云. 基于Spark的三支聚类集成方法[J]. 郑州大学学报(理学版), 2018, 50(1): 20-26. (0)
[2]
DEMPSTER A P. Upper and lower probabilities induced by a multivalued mapping[J]. Annals of mathematical statistics, 1967, 38(2): 325-339. (0)
[3]
SHAFER G. A mathematical theory of evidence[M]. Princeton University: Princeton University Press, 1900. (0)
[4]
DEMPSTER A P. A generalization of bayesian inference[J]. Journal of the royal statistical society, 1968, 30(2): 205-245. (0)
[5]
ZADEH L A. Review of Shafer's mathematical theory of evidence[J]. AI magazine, 1984, 5(3): 205-245. (0)
[6]
蒋黎明, 何加浪, 张宏. D-S证据理论中一种新的冲突证据融合方法[J]. 计算机科学, 2011, 38(4): 236-238. DOI:10.3969/j.issn.1002-137X.2011.04.052 (0)
[7]
QIAN J, GUO X F, DENG Y. A novel method for combining conflicting evidences based on information entropy[J]. Applied intelligence, 2017, 46(4): 876-888. DOI:10.1007/s10489-016-0875-y (0)
[8]
YAGER R. On the dempster-shafer framework and new combination rules[J]. Information sciences, 1987, 41(2): 93-137. DOI:10.1016/0020-0255(87)90007-7 (0)
[9]
MURPHY C K. Combining belief functions when evidence conflicts[J]. Decision support systems, 2000, 29(1): 1-9. (0)
[10]
DUBOIS D, PRADE H. Representation and combination of uncertainty with belief functions and possibility measures[J]. Computational intelligence, 2010, 4(3): 244-264. (0)
[11]
CAPRARA A, TOTH P, FISCHETTI M. Algorithms for the set covering problem[J]. Annals of operations research, 2000, 98(1): 353-371. (0)
[12]
陈彩云, 李治国. 关于属性约简和集合覆盖问题的探讨[J]. 计算机工程与应用, 2004, 40(2): 44-46. DOI:10.3321/j.issn:1002-8331.2004.02.015 (0)
[13]
AKOWSKI W. Approximations in the space (U, Π)[J]. Demonstratio mathematica, 1983, 16(40): 761-769. (0)
[14]
钱进. 多粒度决策粗糙集模型研究[J]. 郑州大学学报(理学版), 2018, 50(1): 33-38. (0)
[15]
徐久成, 穆辉宇, 冯森. 基于PCA和多邻域粗糙集的肿瘤特征基因选择算法[J]. 郑州大学学报(理学版), 2017, 49(4): 28-33. (0)
[16]
TAN A H, WU W Z, TAO Y Z. A set-cover-based approach for the test-cost-sensitive attribute reduction problem[J]. Soft computing, 2017, 21(20): 6159-6173. DOI:10.1007/s00500-016-2173-3 (0)
[17]
王丽娟, 吴陈, 杨习贝, 等. 邻域系统粗糙集和覆盖粗糙集[J]. 计算机科学, 2013, 40(1): 221-224. DOI:10.3969/j.issn.1002-137X.2013.01.051 (0)
[18]
WU W Z, QIAN Y H, LI T J, et al. On rule acquisition in incomplete multi-scale decision tables[J]. Information science, 2017, 378: 282-302. DOI:10.1016/j.ins.2016.03.041 (0)
[19]
张文修, 梁怡, 吴伟志. 信息系统与知识发现[M]. 北京: 科学出版社, 2003. (0)
[20]
孙全, 叶秀清, 顾伟康. 一种新的基于证据理论的合成公式[J]. 电子学报, 2000, 28(8): 117-119. DOI:10.3321/j.issn:0372-2112.2000.08.036 (0)
[21]
张文修, 梁怡, 徐萍. 基于包含度的不确定性推理[M]. 北京: 清华大学出版社, 2005. (0)