郑州大学学报(理学版)  2019, Vol. 51 Issue (1): 39-43  DOI: 10.13705/j.issn.1671-6841.2017336

引用本文  

来鹏, 张洁, 季静雯. 条件区间分位数超高维特征筛选研究[J]. 郑州大学学报(理学版), 2019, 51(1): 39-43.
LAI Peng, ZHANG Jie, JI Jingwen. Feature Screening for Ultrahigh Dimensional Data Based on the Conditional Interval Quantile[J]. Journal of Zhengzhou University(Natural Science Edition), 2019, 51(1): 39-43.

基金项目

国家自然科学基金项目(11771215);江苏省自然科学基金项目(BK20161530);江苏省“青蓝工程”项目(2016);国家社科基金重大项目(16ZDA047)

通信作者

张洁(1990—),女,江苏淮阴人,硕士研究生,主要从事高维数据统计分析研究,E-mail:755427117@qq.com

作者简介

来鹏(1979—),男,山西太原人,副教授,主要从事高维统计降维、复杂数据分析研究,E-mail:laipeng@amss.ac.cn

文章历史

收稿日期:2017-11-17
条件区间分位数超高维特征筛选研究
来鹏 , 张洁 , 季静雯     
南京信息工程大学 数学与统计学院 江苏 南京 210044
摘要:超高维数据下的特征筛选是模型降维建模的重要环节.基于条件分位数的改进超高维特征筛选方法在给定分位点有扰动情况下可能会导致筛选变量不稳定,针对该问题,引入全局条件分位数的思想,提出基于条件区间分位数的超高维特征筛选方法,并通过理论及数值模拟证明其特征筛选的确定性独立筛选性质和所提方法的有限样本性质.
关键词超高维    特征筛选    区间分位数    确定性筛选性质    
Feature Screening for Ultrahigh Dimensional Data Based on the Conditional Interval Quantile
LAI Peng , ZHANG Jie , JI Jingwen     
School of Mathematics and Statistics, Nanjing University of Information Science and Technology, Nanjing 210044, China
Abstract: Feature screening was an important step for model dimension reduction of ultrahigh dimensional data. Focusing on this problem, to tackle the instability of the feature screening procedure based on the conditional quantile technique when the given quantile values had small disturbance, one global quantile technique was introduced. The generalized feature screening procedure based on the conditional interval quantile was proposed. The theoretical proof and numerical simulations were completed to prove the proposed screening procedure could processe the sure screening property and, showed its finite sample properties.
Key words: ultrahigh dimension    feature screening    interval quantile    sure screening property    
0 引言

随着科学技术的飞速发展, 人类在知识探索发现、社会发展、个人生活等方面越来越多地面临超高维数据的分析问题, 例如:对人体基因序列的解码, 海量待投资目标中的最优投资组合确定, 以及医疗核磁共振检查数据的分析等.在超高维数据中, 协变量Z=(Z1, …, Zpn)T的维数pn随着样本量n呈指数级增长, 但只有少量的协变量同响应变量之间是相互关联的, 模型呈现稀疏性特征.现有的基于惩罚似然的变量选择方法, 如Lasso[1]、SCAD[2]、Adaptive Lasso[3]等方法不能很好地解决问题.为了解决超高维数据的降维问题, 近年来很多学者提出了多种便捷的超高维变量筛选方法, 先将pn维降到较小维数dn, 然后再利用传统的变量选择方法进行建模.文献[4]基于超高维线性回归模型提出了基于边际相关系数的SIS方法.文献[5]将确定性独立筛选方法(sure independence screening, SIS)和迭代的确定性独立筛选方法(iterative sure independence screening, ISIS)推广到了广义线性模型.文献[6]提出了基于协变量和响应变量条件分布边际相关的稳健超高维筛选指标.文献[7]基于距离相关系数提出了无模型假设下的特征筛选方法.文献[8]在无模型假设下提出了基于条件分位数的超高维特征筛选方法.文献[9]结合局部领域嵌入算法与l2, 1范数提出一种无监督特征选择方法.

文献[10]于1978年提出分位数回归, 它提供了响应变量的条件分位数和协变量之间线性关系的估计方法.分位数和条件分位数可分别定义为:Qτ(Y)=inf{t:pr(Yt)≥τ}和Qτ(Y|Z)=inf{t:pr(Yt|Z)≥τ}, τ∈(0, 1).分位数作为一种灵活的工具, 能够反映在一定分位数水平下协变量对响应变量分布产生的影响.近些年, 大部分有关分位数的研究都是基于某单一分位数水平下进行的.在超高维数据研究中也引入了该方法, 文献[8]提出一种基于给定分位数水平的条件分位数筛选指标.设有独立同分布的样本{Yi, (Zi1, …, Zipn)T:i=1, …, n}, 其中协变量维数pn随着样本n呈指数级增长, 给定τ, 文献[8]定义dk(t)=E([τ-I{Y < Qτ(Y)}]I(Zk < t)), 如果Qτ(Y|Zk)=Qτ(Y), k=1, …, pn, 则任意tR, dk(t)=0.文献[8]对第k个预测变量建立边际度量$\left\| {{{\hat d}_k}} \right\| = {n^{ - 1}}\mathop \sum \limits_{i = 1}^n {\hat d_k}{({Z_{ik}})^2}, \left\| {{{\hat d}_k}} \right\| $较大的预测变量被认为是重要的.但是, 在实际运用中, τ分位数的值可能无法精确确定, 分位数点的扰动有可能导致变量筛选的不稳定.在给定τ分位数水平下筛选同响应变量相互关联的重要变量的时候, 在有限样本量下, 随着τ的轻微改变, 筛选的变量可能有所改变, 甚至有些重要变量会漏选.为了解决局部单一分位数回归的局限性, 文献[11]提出了全局区间分位数回归, 考虑一个区间上的分位数水平Δ⊂(0, 1), 例如, 如果想识别影响响应变量条件分布中心位置的协变量, Δ可以取[0.4, 0.6]这一区间.因此全局分位数回归是局部分位数回归的扩展, 其准确性更高、更稳健, 有利于选取所有有用的信息, 即当基于单一的分位数水平下, 某个活跃的变量被漏选了, 那么基于选取附近的分位数区间水平下, 被漏选的活跃变量就会被选取出来.本文将文献[8]的超高维条件分位数筛选法与文献[11]的全局分位数回归思想相结合, 提出一种基于区间分位数的条件分位数筛选方法, 使其筛选过程更加准确和稳定.

1 筛选和排序过程

为了给出超高维筛选指标, 定义与响应变量Y相关的重要变量集合记为A, 那么

$ A = \left\{ {k:F\left( {y\left| Z \right.} \right)依赖\;{Z_k},k = 1, \cdots ,{p_n},\exists y \in {\mathit{\Psi }_y}} \right\}, $

为Y的取值区域.仿照文献[8], 可定义基于τΔ⊂(0, 1)下的重要变量集合Aτ={k:Qτ(Y|Z)依赖Zk, k=1, …, pn}.

注意到如果YZk独立, Qτ(Y|Zk)=Qτ(Y), τΔ, k=1, …, pn, 那么

$ E\left[ {\tau - I\left\{ {Y < {Q_\tau }\left( {Y\left| {{Z_k}} \right.} \right)} \right\}\left| {{Z_k}} \right.} \right] = E\left[ {\tau - I\left\{ {Y < {Q_\tau }\left( Y \right)} \right\}\left| {{Z_k}} \right.} \right] = 0, $

定义dk, τ(t)=E([τ-I{Y < Qτ(Y)}]I(Zk < t)), 其中τΔ.由条件期望性质, 容易发现对于任意tR, dk, τ(t)=0.令

$ {\omega _k} = \int_{\tau \in \Delta } {\left\| {{\mathit{\boldsymbol{d}}_{k,\tau }}} \right\|{\rm{d}}\tau } = \int_{\tau \in \Delta } {E\left[ {{E^2}\left\{ {\left[ {\tau - I\left( {Y < {Q_\tau }\left( Y \right)} \right)} \right]I\left( {{Z_k} < {{\tilde Z}_k}} \right)\left| {{{\tilde Z}_k}} \right.} \right\}} \right]{\rm{d}}\tau } , $

Qτ(Y|Zk)=Qτ(Y)时, ωk=0;反之ωk>0, k=1, …, pn.由此可见, ωk越大, 则越代表Zk是与Y不独立的重要变量.

为了给出重要变量集合的估计, 定义dk, τ(t)的经验估计为

$ {{\hat d}_{k,\tau }}\left( t \right) = {n^{ - 1}}\sum\limits_{i = 1}^n {\left[ {\tau - I\left\{ {{Y_i} < {{\hat Q}_\tau }\left( Y \right)} \right\}} \right]I\left( {{Z_{ik}} < t} \right)} ,\tau \in \Delta , $

其中: $ {\hat Q_\tau }\left( Y \right)$是基于Y1, …, Ynτ分位数估计.如果在给定Zk下, Yτ条件分位数不依赖于Zk, ${{\hat d}_{k, \tau }} $(t)的值趋向于0.为了估计ωk, 注意到ωk是关于τ一个积分, 可以将区间Δ细分成nτ段进行求和, 设‖Δ‖为区间Δ的长度, 因此可以估计第k个协变量的边际相关度量指标ωk

$ {{\hat \omega }_k} = \sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }} \times \left\| {{{\hat d}_{k,{\tau _j}}}} \right\| = \sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }} \times {n^{ - 1}}\sum\limits_{i = 1}^n {{{\hat d}_{k,{\tau _j}}}{{\left( {{Z_{ik}}} \right)}^2}} ,{\Delta _\tau } = \frac{{\left\| \Delta \right\|}}{{{n_\tau }}}. $

则重要变量集合可估计为$ {{\hat A}_\tau } = \{ k:{{\hat \omega }_k} \ge c{n^{ - \alpha }}, k = 1, \cdots , {p_n}\} $, 其中:cα∈[0, 1/2)为预先设定的值.在实际应用中, 常选择${{\hat \omega }_k}$按降序排列的前dn个值作为筛选出的重要变量集合, 一般取$ {d_n} = \left[ {\frac{n}{{\log \left( n \right)}}} \right]$, 这里[a]表示取不大于a的整数.为了证明所给出筛选方法的筛选相合性, 仿照文献[8]给出下面一些正则化条件.

条件1   存在常数c>0, 使得$ \mathop {\min }\limits_{k \in {A_\tau }} {\omega _k} \ge 2c{n^{ - \alpha }}$.

条件2   τΔ, 令ZAτ={Zk:kAτ}, ZAτc={Zk:kAτ}, I(Y < Qτ(Y))与ZAτc在给定ZAτ下条件独立, 且ZAτZAτc独立, 其中AτcAτ的补集.

条件3   在Qτ(Y)附近, F(y)二次可微, Y的密度函数f(y)对正数c01c02一致地满足0 < c01 < f(y) < c02 < ∞, 且f′(y)一致有界.

定理1  在条件3下, 若nτ>nα/2, 则存在正数c1c2, 使得

$ pr\left( {\mathop {\max }\limits_{1 \le k \le {p_n}} \left| {{{\hat \omega }_k} - {\omega _k}} \right| \ge c{n^{ - \alpha }}} \right) \le O\left( {{p_n}{n_\tau }\exp \left( { - {c_1}{n^{1 - 2\alpha }}} \right) + {p_n}{n_\tau }\exp \left( { - {c_2}{n^{3 - 2\alpha }}} \right)} \right), $ (1)

且在条件1和条件2下

$ pr\left( {{A_\tau } \subseteq {{\hat A}_\tau }} \right) \ge 1 - O\left\{ {{s_n}{n_\tau }\exp \left( { - {c_1}{n^{1 - 2\alpha }}} \right) + {s_n}{n_\tau }\exp \left( { - {c_2}{n^{3 - 2\alpha }}} \right)} \right\}, $ (2)

其中:sn=|Aτ|是集合Aτ中元素的个数.

注:由于变量维数pn随样本量呈指数级增长, 若pn=O(exp (nγ)), 则当0 < γ < 1-2α, nα/2 < nτ < O(pn)时, 当n→∞, (1)式趋向于0, 且(2)式趋向于1, 说明我们所提出的方法可以以指数收敛速度保证真实重要变量集合包含于估计的重要变量集合, 满足筛选相合性质.

为证明定理1, 将仿照文献[8]的证明步骤.为了简化符号定义, 不妨设常数c, ci, i=1, 2, 3, 4, 可根据不同情况变换取不同的常数值.首先对|$ {{\hat \omega }_k}$-ωk|进行分解,

$ pr\left( {\left| {{{\hat \omega }_k} - {\omega _k}} \right| \ge c{n^{ - \alpha }}} \right) \le pr\\\left( {\left| {\sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{{\hat d}_{k,{\tau _j}}}} \right\|} - \sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{{ d}_{k,{\tau _j}}}} \right\|} } \right| \ge c{n^{ - \alpha }} - \left| {\sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{d_{k,{\tau _j}}}} \right\|} - \int_{\tau \in \Delta } {\left\| {{d_{k,\tau }}} \right\|{\rm{d}}\tau } } \right|} \right). $

由于数值积分性质, $ |\mathop \sum \limits_{j = 1}^{{n_\tau }} {\Delta _\tau }\left\| {{d_{k, {\tau _j}}}} \right\| - {\smallint _{\tau \in \Delta }}\left\| {{d_{k, t}}} \right\|{\rm{d}}\tau | = O(n_\tau ^{ - 2})$.则当nτ>nα/2时,

$ pr\left( {\left| {{{\hat \omega }_k} - {\omega _k}} \right| \ge c{n^{ - \alpha }}} \right) \le pr\left( {\left| {\sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{{\hat d}_{k,{\tau _j}}}} \right\|} - \sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{d_{k,{\tau _j}}}} \right\|} } \right| \ge \frac{{c{n^{ - \alpha }}}}{2}} \right). $ (3)

注意到

$ pr\left( {\left| {\sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{{\hat d}_{k,{\tau _j}}}} \right\|} - \sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{d_{k,{\tau _j}}}} \right\|} } \right| \ge \frac{{c{n^{ - \alpha }}}}{2}} \right) \le \sum\limits_{j = 1}^{{n_\tau }} {pr\left( {\left| {\left\| {{{\hat d}_{k,{\tau _j}}}} \right\| - \left\| {{d_{k,{\tau _j}}}} \right\|} \right| \ge \frac{{c{n^{ - \alpha }}}}{{2\left\| \Delta \right\|}}} \right)} , $ (4)

则要计算$ pr(|{{\hat \omega }_k} - {\omega _k}| \ge c{n^{ - \alpha }})$的上确界, 只要研究$ pr(|\left\| {{{\hat d}_{k, {\tau _j}}}} \right\| - \left\| {{d_{k, {\tau _j}}}} \right\|| \ge \frac{{c{n^{ - \alpha }}}}{{2\left\| \Delta \right\|}})$.

根据文献[8]定理1的证明可以得到

$ pr\left( {\left| {\left\| {{{\hat d}_{k,{\tau _j}}}} \right\| - \left\| {{d_{k,{\tau _j}}}} \right\|} \right| \ge c{n^{ - \alpha }}} \right) \le 3\exp \left( { - {c_1}{n^{1 - 2\alpha }}} \right) + 3\exp \left( { - {c_2}{n^{3 - 2\alpha }}} \right). $ (5)

则由式(3)~(5)可得

$ pr\left( {\left| {{{\hat \omega }_k} - {\omega _k}} \right| \ge c{n^{ - \alpha }}} \right) \le 3{n_\tau }\exp \left( { - {c_3}{n^{1 - 2\alpha }}} \right) + 3{n_\tau }\exp \left( { - {c_4}{n^{3 - 2\alpha }}} \right). $

那么容易得到

$ pr\left( {\mathop {\max }\limits_{1 \le k \le {p_n}} \left| {{{\hat \omega }_k} - {\omega _k}} \right| \ge c{n^{ - \alpha }}} \right) \le O\left( {{p_n}{n_\tau }\exp \left( { - {c_3}{n^{1 - 2\alpha }}} \right) + {p_n}{n_\tau }\exp \left( { - {c_4}{n^{3 - 2\alpha }}} \right)} \right). $

下面证明定理1的第二部分结论.

为了证明pr(Aτ${{\hat A}_\tau } $)的上界, 不放假设Aτ不是${{\hat A}_\tau } $的子集, 由于Aτ是所有满足指标$ {{\hat \omega }_k}$cn-α的变量集合, 那么存在kAτ使得${{\hat \omega }_k} $ < cn-α.则根据条件1, 可以得到对该kAτ, 满足|${{\hat \omega }_k} $-ωk|>cn-α.因而pr(Aτ${{\hat A}_\tau } $)≤pr{|${{\hat \omega }_k} $-ωk|>cn-α对某个kAτ}, 所以

$ pr\left( {{A_\tau } \subseteq {{\hat A}_\tau }} \right) \ge 1 - O\left\{ {{s_n}{n_\tau }\exp \left( { - {c_1}{n^{1 - 2\alpha }}} \right) + {s_n}{n_\tau }\exp \left( { - {c_2}{n^{3 - 2\alpha }}} \right)} \right\}. $
2 数值模拟

本文通过蒙特卡罗方法来验证所提出筛选方法的有限样本性质, 为了说明所提出方法IQ-SIS的优劣, 将与Q-SIS (文献[8])、SIRS (文献[6])和DC-SIS (文献[7])进行比较, 考虑样本量n为100或200, 协变量维数pn=2 000, 并重复200次试验, 筛选出的变量个数dn=[n/log (n)].为方便比较, 沿用文献[8]相同的模拟例子和评价指标, 其中指标p0为真实模型大小; Median为200次重复试验中包含所有重要预测变量的最小模型大小的中位数; IQR为200次重复试验中包含所有重要预测变量的最小模型大小的四分位差; PAll为200次重复试验中在给定筛选变量个数后, 筛选出包含所有重要预测变量次数的百分比.

例1  考虑如下模型

$ Y = {Z_1} + 0.8{Z_2} + 0.6{Z_3} + 0.4{Z_4} + 0.2{Z_5} + \sigma \left( \mathit{\boldsymbol{Z}} \right)\varepsilon , $

其中Z=(Z1, …, Zpn)T服从多元正态分布, 均值向量为0, 协方差矩阵Σ=0.8|i-j|, (i, j=1, …, pn), σ(Z)=exp (Z20+Z21+Z22), 且ε服从标准正态分布或标准柯西分布, 考虑分位数点τ取值为0.5或0.75.可见, 在分位数为0.5时, 真实模型的重要变量个数为5;分位数为0.75时, 真实模型的重要变量个数为8.为了给出更稳健的筛选结果, 根据所提出区间分位数的思想, 考虑分位数区间分别为[0.4, 0.6]和[0.7, 0.8]用于IQ-SIS.模拟结果见表 1.

表 1 例1模型的变量筛选模拟结果 Tab. 1 Simulation results of feature screening for the model of example 1

例2  考虑更复杂的非线性模型

$ Y = Z_1^2\sin \left( {{Z_2}} \right) + Z_3^2 + {\cos ^2}\left( {{Z_4}} \right) + \sigma \left( \mathit{\boldsymbol{Z}} \right)\varepsilon , $

其他模拟条件与例1相同, 模拟结果如表 2所示.

表 2 例2非线性模型的变量筛选模拟结果 Tab. 2 Simulation results of feature screening for the nonlinear model of example 2

表 1表 2的模拟结果可以发现, 本文改进的条件区间分位数筛选方法IQ-SIS要优于Q-SIS特征筛选方法, 具有更小的模型大小和更高的重要变量覆盖率, 并且随着样本量的增加, 筛选出包含所有重要预测变量的百分比显著增加, 并趋近于1.当考虑异方差情形的时候, 在0.75分位数条件下, IQ-SIS也较Q-SIS有更优良的表现.DC-SIS在所有结果中表现最差, SIRS由于考虑的是全局情况下的特征筛选, 所以相较于仅仅考虑0.75分位数范围的条件分位数筛选方法具有更好的表现.但如果所研究问题为特定分位数条件下的分位数回归问题, 则本文所提出方法则有其局部研究优势.总的来说, 本文所改进的区间条件分位数筛选方法较Q-SIS更加稳健可靠.

3 结论

本文探讨了超高维数据的特征筛选和降维问题, 超高维数据建模的首要任务是通过快速便捷的降维方法, 将超高维减少为一般高维问题, 则传统的高维降维方法就可适用于数据建模.在现有超高维降维方法的基础上, 本文推广了无模型假设的基于条件分位数的特征筛选方法, 改善基于特定分位数水平而导致的可能由于分位数微小扰动产生的筛选变量的不稳定性.本文提出基于条件区间分位数的特征筛选方法, 并说明所提出方法具有无模型假设、计算简便、稳健性高的特点, 并从理论上证明了所提出方法满足特征筛选的筛选相合性.此外, 本文还通过蒙特卡罗数值模拟验证了所提出方法的有限样本性质, 结果表明所提出方法能够改善传统的基于特定条件分位数的特征筛选方法的筛选降维效果.

参考文献
[1]
TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. Journal of the royal statistical society: series B, 1996, 58(3): 267-288. (0)
[2]
FAN J Q, LI R Z. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. Journal of the American statistical association, 2001, 96(456): 1348-1360. DOI:10.1198/016214501753382273 (0)
[3]
ZOU H. The adaptive lasso and its oracle properties[J]. Journal of the American statistical association, 2006, 101(476): 1418-1429. DOI:10.1198/016214506000000735 (0)
[4]
FAN J Q, LV J C. Sure independence screening for ultrahigh dimensional feature space[J]. Journal of the royal statistical society: series B, 2008, 70(5): 849-911. DOI:10.1111/rssb.2008.70.issue-5 (0)
[5]
FAN J Q, SONG R. Sure independence screening in generalized linear models with NP-dimensionality[J]. The annals of statistics, 2010, 38(6): 3567-3604. DOI:10.1214/10-AOS798 (0)
[6]
ZHU L P, LI L X, LI R Z, et al. Model-free feature screening for ultrahigh-dimensional data[J]. Journal of the American statistical association, 2011, 106(496): 1464-1475. DOI:10.1198/jasa.2011.tm10563 (0)
[7]
LI R Z, ZHONG W, ZHU L P. Feature screening via distance correlation learning[J]. Journal of the American statistical association, 2012, 107(499): 1129-1139. DOI:10.1080/01621459.2012.695654 (0)
[8]
WU Y S, YIN G S. Conditional quantile screening in ultrahigh-dimensional heterogeneous data[J]. Biometrika, 2015, 102(1): 65-76. DOI:10.1093/biomet/asu068 (0)
[9]
脱倩娟, 赵红. 基于局部邻域嵌入的无监督特征选择[J]. 郑州大学学报(理学版), 2016, 48(3): 57-62. (0)
[10]
KOENKER R, BASSETT G. Regression quantiles[J]. Econometrica: journal of the econometric society, 1978, 46(1): 33-50. DOI:10.2307/1913643 (0)
[11]
ZHENG Q, PENG L M, HE X M. Globally adaptive quantile regression with ultra-high dimensional data[J]. Annals of statistics, 2015, 43(5): 2225-2258. DOI:10.1214/15-AOS1340 (0)