国内外跨社交网络用户身份识别综述 | ![]() |
如今, 社交网络(Social Network Service, SNS)以其高度的便捷性, 服务性和共享性已经成为人们生活中的不可或缺的一部分。根据eMarketer[1]报告, 2020年社交网络用户将会达到29.5亿。人们使用不同的社交网络以用于满足不同的需求, 比如Facebook用于交流, 推特用于看新闻等。单一社交网络上的用户信息通常不完整, 可以通过跨社交网络身份识别技术(User Identity Linkage)使同一用户在多个社交媒体中的数据相融合, 形成规模大, 信息完整, 实用价值高的数据集, 这样就可以更好地对用户进行画像, 进而可以将获取的用户信息用于很多应用领域, 比如推荐系统、商务智能等。
1 跨社交网络用户身份识别方法跨社交网络用户身份识别(User Identity Linkage)也常被称为用户账号关联(User Account Linkage)、用户身份关联(User Identity Resolution)、锚点链接预测(Anchor Link Prediction)等[2], 是指判断社交网络M的用户i与社交网络N中的用户j是否属于同一用户。
经过阅读大量研究成果和文献, 发现现有的跨社交网络用户身份识别方法主要分为四类, 现总结如表 1所示:
表 1 跨社交网络用户身份识别技术 |
![]() |
1.1 基于用户属性的身份识别技术
用户属性蕴含着用户爱好, 职业, 年龄等高效识别信息, 基于用户关系和用户生成内容的识别方法难以量化和建模, 相比之下基于用户属性相对更加容易“上手”, 因此这种方法是各学者研究最为广泛也是最受欢迎的一种研究方法。
1.1.1 基于用户名的身份识别技术用户名如同社交网络账号的“身份证”, 具有唯一性和可识别性, 用户名包含用户的个人喜好等高质量识别信息, 并且相对较容易得到, 因此基于用户名的身份识别技术研究较为广泛。
Perito等[3]首次通过利用马尔科夫链的关联算法来实现跨社交平台的用户身份关联, 他们分析了谷歌、LDAP、eBay和MySpace的用户名数据, 证明了采用用户名进行用户身份识别的可行性。Zafarani等[4]对用户命名背后的行为特征进行了研究, 分别建立了用户自身约束, 内部约束和外部约束的行为特征模型。然后采用SVM等方法进行机器学习进而用于身份识别。吴铮[5]等利用MN算法对用户名相似度进行计算, 得到的结果更加精确和符合逻辑。赵东生等[6]提出了两种使用用户名选择候选匹配用户的关联算法, 一种通过计算标签语义相似度, 另一种采用双向匹配的算法来进行双向关联, 两种算法都提高了精确率, 召回率和F1值。
但该方法不适用于按数字递升作为用户名的社交网络(如QQ), 这就使得方法具有一定的局限性。另一方面很多用户在注册用户名时, 并未进行过多思考, 甚至采用一些列的字母数字地随机排列作为社交网络的ID, 依据这些低质量用户名进行身份识别, 使得识别准确率上存在不足。
1.1.2 基于头像的用户身份识别技术考虑到基于用户名识别的普适性和识别准确率的不足, 一些学者把目光注视到了用户头像上。
Acquisti[7]等通过分析用户的头像, 然后利用人脸识别技术进行身份关联。吴铮[5]等采取了PHA和SIFT两种算法来计算图片的相似度, 确定不同社交网络上的两个人是否属于同一个用户。
但由于出于隐私考虑, 社交网络用户只有一部分人会上传真实头像, 甚至不少人不会上传头像, 因此该方法的普适度存在一定缺陷。
1.1.3 基于用户位置的身份识别技术一些学者基于社交网络中提供的位置信息, 通过量化距离或者动态展示用户运动轨迹的方法进行识别。此种方法的相关研究不是很多, 但研究潜力较大。
吴铮等[5]利用百度地图将用户的地理位置信息转化为坐标, 然后计算地理位置的距离来进行用户身份识别。徐乾等[8]在利用地理位置进行用户身份识别时引入时序关系, 从而提高了识别的精确度。陈鸿昶等[9]提出一种追踪用户轨迹的CDTraj2vec算法, 用网格化表示用户轨迹, 并对用户轨迹进行划分, 然后用PV-DM模型抽取轨迹特征并用向量表示, 进而判断不同社交网络的两个用户轨迹是否匹配来判断是不是同一个人。
该方法面临的一个难题同样是隐私问题, 在用户愈发重视隐私保护的当下, 一些用户可能会屏蔽自身位置信息, 从而使该方法普适性降低。
1.1.4 综合用户的几个属性的身份识别技术单个属性往往只能反馈出有限的单维度信息, 从而影响识别成功率, 因此一些学者尝试综合几个属性, 从而利用用户的多维信息进行用户身份识别以提高识别成功率。
Iofciu等[10]根据用户的多个属性进行向量化, 然后计算向量间的相似度判断用户是不是同一个人。Zhang等[11]采用贝叶斯算法根据用户的使用语言, 好友数, 用户名等七个属性进行关联, 实现了较好的识别成功率。郑龙水[12]提出了基于后验概率的信息熵权分配算法, 给用户多个属性赋权从而克服了经验权重分配法带来的低识别率问题。
综合用户各个属性信息实现了从一维到多维, 使用了更加充足的能够反馈出用户身份的信息, 从而更好地训练机器学习模型, 实现更高的识别成功率, 但这种采用多维信息进行识别的方法也使得建模存在更大难度, 需要研究者在技术和算法上实现更大突破。
1.1.5 基于用户属性的各身份识别方法对比经过对基于用户属性的身份方法进行深入归纳分析, 现对比总结如表 2。
表 2 基于用户属性的身份识别技术优缺点对比 |
![]() |
1.2 基于用户关系的身份识别
由于用户关系更为抽象, 关联起来难度较大, 因此基于用户关系的身份关联研究还不多。但和用户属性相比, 用户关系中含的虚假信息量更少。目前, 基于用户关系的身份关联有两种方法:一类是有先验节点的关联方法, 另一类是无先验节点的关联方法。
1.2.1 基于有先验节点的用户识别方法基于有先验节点的用户身份识别方法是一种有监督的识别模式, 需要已知部分先验用户(关联的用户对), 然后以此建立未关联的用户相似度的模型进行迭代来关联更多用户。
Tan等[13]将网络中的关系表示成矩阵, 然后通过降低矩阵的秩数来减少计算量。Zhou等[14]提出了FRUI方法, 在已经识别的用户对的基础上进一步识别新的用户对, 减少了识别用时。徐乾[8]提出了把非好友关系这一信息的引入权超图, 识别结果的准确率和召回率都有所提高。刘奇飞等[15]设计了用户关系提取模块, 将用户关系用低纬度向量表示, 提出了基于CSN_LINE算法身份关联模型, 实现了较好的识别效果。
使用这种方法的一大关键就是需要找到高质量的“种子用户”, 事先知道的关联用户组对识别成功率的影响显著, 而在用户越来越重视隐私保护的当下, 如何找到高质量用户的社交网络关系网将是该研究的一个重点问题。
1.2.2 基于无先验节点的用户识别方法基于无先验节点的用户身份识别方法是一种无监督的识别模式。该方法将更多地将问题转化为优化问题求解, 即为了达到最大相似性, 建立并求解关联用户模型, 得到两种模型中所有节点最有可能的关联情况。
Fu等[16]提出了一种类似于GNA识别关联节点的NM(Neighbor Matching)算法。该算法认为相同用户在不同的社交网络上具有类似的好友关系, 可以通过迭代的方式计算。Pedarsani等[17]利用贝叶斯算法进行用户身份关联, 在规模较小的相近网络中实现了较好的识别效果。徐乾等[18]提出了WHUI算法, 构建带权超图来描述关系结构来计算相似度。
相对于有先验节点的用户关联方法, 该方法的一个突出优点就是无需高质量的关联用户对, 但是这也就造成了对无监督算法的高要求所带来的实现难度的提升。
1.2.3 基于用户关系的两类方法对比现把基于用户关系的两类方法总结对比如下表 3所示。
表 3 基于用户关系的身份识别技术优缺点对比 |
![]() |
1.3 基于UGC的身份关联
人们在使用社交网络的过程中会进行分享, 交流, 和发布许多信息, 这些信息如果可以被利用, 将会在用户身份识别中发挥重要的作用, 因此许多学者进行了基于用户生成内容的身份关联研究。
Kong等[19]提出了MNA(multi-network anchoring)模型, 考虑到用户发布的内容的位置, 时间和文本相似度等信息, 使用SVM的分类方法进行用户身份关联。Li等[20]采用机器学习的方法, 建立两个社交网络空间内容相似度, 时间相似度和空间相似度的特征向量, 进而进行用户身份关联。Nie等[21]验证了利用用户习惯进行身份关联的可行性[22]。张树森等[23]通过分析用户产生的文本内容, 多媒体内容和时间序列内容进行分析进而对用户身份关联。
基于用户生成内容进行身份识别的研究较少, 由于用户生成内容包括文字信息, 图片信息等, 因此如何对这些信息进行很好地建模是研究人员首先要关注的问题。与此同时许多用户的生成内容如动态设置的“不可见”, 这也给该方法提出了挑战。
1.4 综合用户的属性, 关系和生成内容的身份识别除了使用用户的属性, 关系和用户生成内容中的某个单维度进行用户身份识别之外, 还有一些研究致力于综合运用这三个单维度以提升识别效果。
Nie等[21]提出了DCIM算法基于用户发布的内容和用户关系, 充分考虑用户的动态变化, 对用户的兴趣进行建模分析, 进而用于身份关联。Zhang等[24]首先根据用户关系生成候选关联用户对, 然后根据用户生成内容, 用户名, 用户关系和社交反应来对身份进行关联。郁鸣辰等[25]研究了取证场景下, 基于用户属性内容和发布的文字信息虚拟身份关联算法, 并验证了其可行性, 弥补以往方法识别粒度不够细的缺点, 满足了取证环境下的身份关联需求。
可想而知, 这种方法应用了属性, 关系和UGC各个维度的特征, 会实现最好的识别效果, 但因为多维度信息的揉和建模对技术的要求过高, 因此这种识别方法的研究还仅仅处于起步阶段。但值得一提的是, 随着技术的进步, 这种研究方法会越来越受到学者的追捧, 成为未来该领域研究的主流。
1.5 跨社交网络用户身份识别方法对比基于用户属性, 基于用户关系, 基于用户UGC和综合用户属性、关系、UGC的身份识别方法各有自身的优缺点, 现总结对比如下表 4:
表 4 跨社交网络用户身份识别方法对比 |
![]() |
2 总结与展望
通过对各学者关于跨社交网络用户身份识别的研究成果的阅读, 分析和综述, 可以得到以下结论:
1) 目前各学者跨社交网络用户身份识别的方法主要围绕用户的属性, 关系和UGC展开, 追求更高的识别正确率, 准确率, 召回率和F1值。
基于用户属性的身份识别方法是各学者研究最多的一种识别方法, 相对于另外两种方法更容易入手, 缺点是用户属性存在重复性和虚假性。相比之下, 用户关系具有真实性, 稳定性和唯一性, 因此基于用户关系的身份识别方法理论上会有更好的识别效果, 但这种方法的缺点是较难实现。基于用户生成内容的身份关联算法的挑战是很多用户的生成内容较少或不可见。综合用户的属性, 关系和生成内容的方法因为难度较大, 目前还处于研究的起步阶段。
2) 围绕着跨社交网络身份识别技术的研究现状, 现对该领域未来的研究展望如下:
对于基于用户属性的身份识别方法, 如何克服获得属性的虚假性和重复性给识别效果带来的影响, 提高识别的准确率是未来一个重要的研究方向; 对于基于关系的身份识别方法, 有先验节点型如何获得高质量的种子用户以达到更好地识别效果以及无先验接节点的无监督型如何克服技术上的难题, 提出较好的无监督识别算法, 将是未来一项有挑战的研究方向; 基于用户生成内容的身份识别方法的局限是有些用户发的文本信息比较少, 因此学者研究的一个重要方向将是如何从较少的产生内容当中提取主题等更多有效的信息来进行识别; 对于基于综合用户属性, 关系和UGC的识别方法, 该方法是跨社交网络用户身份识别的一个必然趋势, 建立一个综合运用用户属性, 关系和生成内容的高效混合模型来进行相似度计算, 将是未来一个重要的研究方向。
与此同时, 针对未来越来越受重视的隐私问题, 如何获取高质量的数据以及如何在无先验用户或先验用户较少的情况下实现较好的识别效果将是各学者需要考虑的问题。
[1] |
国家图书馆研究院: 中国互联网络信息中心发布第43次《中国互联网络发展状况统计报告》[J].国家图书馆学刊, 28(02): 15. http://www.cqvip.com/QK/97924A/201902/7001823723.html
|
[2] |
SHO K, WANG S, TANG J, et al. User identity linkage across online social networks:A review[J]. ACM SIGKDD Explorations Newsletter, 2017, 18(2): 5-17. DOI:10.1145/3068777.3068781 |
[3] |
PERITO D, CASTELLUCCIA C, KAAFER MA, et al.How unique and traceable are usernames[C].International Symposium on Privacy Enhancing Technologies Symposium, Berlin, 2011.
|
[4] |
ZAFARANI R, LIU H.Connecting corresponding identities across communities[C].Proceedings of the Third International ICWSM Conference, California, 2009.
|
[5] |
吴铮, 于洪涛, 刘树新, 等. 基于信息熵的跨社交网络用户身份识别方法[J]. 计算机应用, 2017, 37(08): 2374-2380. |
[6] |
赵东生.跨社交网络用户身份识别算法研究[D].杭州: 杭州电子科技大学, 2019. http://cdmd.cnki.com.cn/article/cdmd-91037-1018842013.htm
|
[7] |
ACQUISTI A, GROSS R, STUTZMAN F.Faces of facebook privacy in the age of augmented reality[C].Blackhat USA Technical Security Conference, Las Vegas, 2011.
|
[8] |
徐乾.跨社交网络用户身份识别算法研究[D].郑州: 战略支援部队信息工程大学, 2018. http://cdmd.cnki.com.cn/article/cdmd-91037-1018842013.htm
|
[9] |
陈鸿昶, 徐乾, 黄瑞阳, 等. 一种基于用户轨迹的跨社交网络用户身份识别算法[J]. 电子与信息学报, 2018, 40(11): 2758-2764. |
[10] |
IOFCIU T, FANKHAUSER P, ABEL F, et al.Identifying users across social tagging systems[C].International Conference on Weblogs & Social Media.DBLP, Barcelona, 2011.
|
[11] |
ZHANG H, KAN M Y, LIU Y, et al.Online social network profile linkage[C].Asia Information Retrieval Symposium, Sarawak, 2014.
|
[12] |
郑龙水.跨平台的社交网络用户身份识别技术研究[D].绵阳: 西南科技大学, 2018. http://cdmd.cnki.com.cn/Article/CDMD-10619-1018198821.htm
|
[13] |
TAN S, GUAN Z, CAI D, et al.Mapping users across networks by manifold alignment on hypergraph[C]。the Association for the Advance of Artificial Intelligence, Quebec City, 2014.
|
[14] |
ZHOU X P, LIANG X, ZHANG H Y, et al. Cross-Platform identification of anonymous identical users in multiple social media networks[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(2): 411-424. DOI:10.1109/TKDE.2015.2485222 |
[15] |
刘奇飞, 杜彦辉, 芦天亮. 基于用户关系的跨社交网络用户身份关联方法[J]. 计算机应用研究, 2018, 07: 1-6. DOI:10.3969/j.issn.1001-3695.2018.01.001 |
[16] |
FU H, ZHANG A, XIE X. Effective social graph deanonymization based on graph structure and descriptive information[J]. Acm Transactions on Intelligent Systems & Technology, 2015, 6(4): 1-29. |
[17] |
PEDARSANI P, FIGUEIREDO D R, GROSSGLAUSER M.A bayesian method for matching two similar graphs without seeds[C].Communication, Control, and Computing, Monticello, 2013.
|
[18] |
徐乾, 陈鸿昶, 吴铮, 等. 基于带权超图的跨网络用户身份识别方法[J]. 计算机应用, 2017, 37(12): 3435-3441. DOI:10.11772/j.issn.1001-9081.2017.12.3435 |
[19] |
KONG X, ZHANG J, YU P S.Inferring anchor links across multiple heterogeneous social networks[C].The 22nd Acm International Conference on Information & Knowledg Management, New York, 2013.
|
[20] |
Li Y, ZHANG Z, PENG Y, et al. Matching user accounts based on user generated content across social networks[J]. Future Generation Computer Systems, 2018, 83: 104-115. DOI:10.1016/j.future.2018.01.041 |
[21] |
NIE Y P, JIA Y, LI S D, et al. Identifying users across social networks based on dynamic core interests[J]. Neurocomputing, 2016, 210: 107-115. DOI:10.1016/j.neucom.2015.10.147 |
[22] |
GOGA O, LEI H, PARTHASARATHI S H K, et al.Exploiting innocuous activity for correlating users across sites[C].The 22nd International Conference on World Wide Web, New York, 2013.
|
[23] |
张树森, 梁循, 弭宝瞳, 等. 基于内容的社交网络用户身份识别方法[J]. 计算机学报, 2019, 42(08): 1739-1754. |
[24] |
ZHANG P, LU T, GU H, et al.Identifying user identity across social network sites based on overlapping relationship and social interaction[C].the 12th Chinese Conference on Computer Supported Cooperative Work and Social Computing, Chongqing, 2017.
|
[25] |
郁鸣辰.面向取证场景的社交网络用户身份识别研究[D].重庆: 重庆邮电大学, 2019.
|