随着科学技术的飞速发展, 人类在知识探索发现、社会发展、个人生活等方面越来越多地面临超高维数据的分析问题, 例如:对人体基因序列的解码, 海量待投资目标中的最优投资组合确定, 以及医疗核磁共振检查数据的分析等.在超高维数据中, 协变量Z=(Z1, …, Zpn)T的维数pn随着样本量n呈指数级增长, 但只有少量的协变量同响应变量之间是相互关联的, 模型呈现稀疏性特征.现有的基于惩罚似然的变量选择方法, 如Lasso[1]、SCAD[2]、Adaptive Lasso[3]等方法不能很好地解决问题.为了解决超高维数据的降维问题, 近年来很多学者提出了多种便捷的超高维变量筛选方法, 先将pn维降到较小维数dn, 然后再利用传统的变量选择方法进行建模.文献[4]基于超高维线性回归模型提出了基于边际相关系数的SIS方法.文献[5]将确定性独立筛选方法(sure independence screening, SIS)和迭代的确定性独立筛选方法(iterative sure independence screening, ISIS)推广到了广义线性模型.文献[6]提出了基于协变量和响应变量条件分布边际相关的稳健超高维筛选指标.文献[7]基于距离相关系数提出了无模型假设下的特征筛选方法.文献[8]在无模型假设下提出了基于条件分位数的超高维特征筛选方法.文献[9]结合局部领域嵌入算法与l2, 1范数提出一种无监督特征选择方法.
文献[10]于1978年提出分位数回归, 它提供了响应变量的条件分位数和协变量之间线性关系的估计方法.分位数和条件分位数可分别定义为:Qτ(Y)=inf{t:pr(Y≤t)≥τ}和Qτ(Y|Z)=inf{t:pr(Y≤t|Z)≥τ}, τ∈(0, 1).分位数作为一种灵活的工具, 能够反映在一定分位数水平下协变量对响应变量分布产生的影响.近些年, 大部分有关分位数的研究都是基于某单一分位数水平下进行的.在超高维数据研究中也引入了该方法, 文献[8]提出一种基于给定分位数水平的条件分位数筛选指标.设有独立同分布的样本{Yi, (Zi1, …, Zipn)T:i=1, …, n}, 其中协变量维数pn随着样本n呈指数级增长, 给定τ, 文献[8]定义dk(t)=E([τ-I{Y < Qτ(Y)}]I(Zk < t)), 如果Qτ(Y|Zk)=Qτ(Y), k=1, …, pn, 则任意t∈R, dk(t)=0.文献[8]对第k个预测变量建立边际度量
为了给出超高维筛选指标, 定义与响应变量Y相关的重要变量集合记为A, 那么
$ A = \left\{ {k:F\left( {y\left| Z \right.} \right)依赖\;{Z_k},k = 1, \cdots ,{p_n},\exists y \in {\mathit{\Psi }_y}} \right\}, $ |
为Y的取值区域.仿照文献[8], 可定义基于τ∈Δ⊂(0, 1)下的重要变量集合Aτ={k:Qτ(Y|Z)依赖Zk, k=1, …, pn}.
注意到如果Y与Zk独立, Qτ(Y|Zk)=Qτ(Y), τ∈Δ, k=1, …, pn, 那么
$ E\left[ {\tau - I\left\{ {Y < {Q_\tau }\left( {Y\left| {{Z_k}} \right.} \right)} \right\}\left| {{Z_k}} \right.} \right] = E\left[ {\tau - I\left\{ {Y < {Q_\tau }\left( Y \right)} \right\}\left| {{Z_k}} \right.} \right] = 0, $ |
定义dk, τ(t)=E([τ-I{Y < Qτ(Y)}]I(Zk < t)), 其中τ∈Δ.由条件期望性质, 容易发现对于任意t∈R, dk, τ(t)=0.令
$ {\omega _k} = \int_{\tau \in \Delta } {\left\| {{\mathit{\boldsymbol{d}}_{k,\tau }}} \right\|{\rm{d}}\tau } = \int_{\tau \in \Delta } {E\left[ {{E^2}\left\{ {\left[ {\tau - I\left( {Y < {Q_\tau }\left( Y \right)} \right)} \right]I\left( {{Z_k} < {{\tilde Z}_k}} \right)\left| {{{\tilde Z}_k}} \right.} \right\}} \right]{\rm{d}}\tau } , $ |
则Qτ(Y|Zk)=Qτ(Y)时, ωk=0;反之ωk>0, k=1, …, pn.由此可见, ωk越大, 则越代表Zk是与Y不独立的重要变量.
为了给出重要变量集合的估计, 定义dk, τ(t)的经验估计为
$ {{\hat d}_{k,\tau }}\left( t \right) = {n^{ - 1}}\sum\limits_{i = 1}^n {\left[ {\tau - I\left\{ {{Y_i} < {{\hat Q}_\tau }\left( Y \right)} \right\}} \right]I\left( {{Z_{ik}} < t} \right)} ,\tau \in \Delta , $ |
其中:
$ {{\hat \omega }_k} = \sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }} \times \left\| {{{\hat d}_{k,{\tau _j}}}} \right\| = \sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }} \times {n^{ - 1}}\sum\limits_{i = 1}^n {{{\hat d}_{k,{\tau _j}}}{{\left( {{Z_{ik}}} \right)}^2}} ,{\Delta _\tau } = \frac{{\left\| \Delta \right\|}}{{{n_\tau }}}. $ |
则重要变量集合可估计为
条件1 存在常数c>0, 使得
条件2 τ∈Δ, 令ZAτ={Zk:k∈Aτ}, ZAτc={Zk:k∉Aτ}, I(Y < Qτ(Y))与ZAτc在给定ZAτ下条件独立, 且ZAτ和ZAτc独立, 其中Aτc为Aτ的补集.
条件3 在Qτ(Y)附近, F(y)二次可微, Y的密度函数f(y)对正数c01、c02一致地满足0 < c01 < f(y) < c02 < ∞, 且f′(y)一致有界.
定理1 在条件3下, 若nτ>nα/2, 则存在正数c1和c2, 使得
$ pr\left( {\mathop {\max }\limits_{1 \le k \le {p_n}} \left| {{{\hat \omega }_k} - {\omega _k}} \right| \ge c{n^{ - \alpha }}} \right) \le O\left( {{p_n}{n_\tau }\exp \left( { - {c_1}{n^{1 - 2\alpha }}} \right) + {p_n}{n_\tau }\exp \left( { - {c_2}{n^{3 - 2\alpha }}} \right)} \right), $ | (1) |
且在条件1和条件2下
$ pr\left( {{A_\tau } \subseteq {{\hat A}_\tau }} \right) \ge 1 - O\left\{ {{s_n}{n_\tau }\exp \left( { - {c_1}{n^{1 - 2\alpha }}} \right) + {s_n}{n_\tau }\exp \left( { - {c_2}{n^{3 - 2\alpha }}} \right)} \right\}, $ | (2) |
其中:sn=|Aτ|是集合Aτ中元素的个数.
注:由于变量维数pn随样本量呈指数级增长, 若pn=O(exp (nγ)), 则当0 < γ < 1-2α, nα/2 < nτ < O(pn)时, 当n→∞, (1)式趋向于0, 且(2)式趋向于1, 说明我们所提出的方法可以以指数收敛速度保证真实重要变量集合包含于估计的重要变量集合, 满足筛选相合性质.
为证明定理1, 将仿照文献[8]的证明步骤.为了简化符号定义, 不妨设常数c, ci, i=1, 2, 3, 4, 可根据不同情况变换取不同的常数值.首先对|
$ pr\left( {\left| {{{\hat \omega }_k} - {\omega _k}} \right| \ge c{n^{ - \alpha }}} \right) \le pr\\\left( {\left| {\sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{{\hat d}_{k,{\tau _j}}}} \right\|} - \sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{{ d}_{k,{\tau _j}}}} \right\|} } \right| \ge c{n^{ - \alpha }} - \left| {\sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{d_{k,{\tau _j}}}} \right\|} - \int_{\tau \in \Delta } {\left\| {{d_{k,\tau }}} \right\|{\rm{d}}\tau } } \right|} \right). $ |
由于数值积分性质,
$ pr\left( {\left| {{{\hat \omega }_k} - {\omega _k}} \right| \ge c{n^{ - \alpha }}} \right) \le pr\left( {\left| {\sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{{\hat d}_{k,{\tau _j}}}} \right\|} - \sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{d_{k,{\tau _j}}}} \right\|} } \right| \ge \frac{{c{n^{ - \alpha }}}}{2}} \right). $ | (3) |
注意到
$ pr\left( {\left| {\sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{{\hat d}_{k,{\tau _j}}}} \right\|} - \sum\limits_{j = 1}^{{n_\tau }} {{\Delta _\tau }\left\| {{d_{k,{\tau _j}}}} \right\|} } \right| \ge \frac{{c{n^{ - \alpha }}}}{2}} \right) \le \sum\limits_{j = 1}^{{n_\tau }} {pr\left( {\left| {\left\| {{{\hat d}_{k,{\tau _j}}}} \right\| - \left\| {{d_{k,{\tau _j}}}} \right\|} \right| \ge \frac{{c{n^{ - \alpha }}}}{{2\left\| \Delta \right\|}}} \right)} , $ | (4) |
则要计算
根据文献[8]定理1的证明可以得到
$ pr\left( {\left| {\left\| {{{\hat d}_{k,{\tau _j}}}} \right\| - \left\| {{d_{k,{\tau _j}}}} \right\|} \right| \ge c{n^{ - \alpha }}} \right) \le 3\exp \left( { - {c_1}{n^{1 - 2\alpha }}} \right) + 3\exp \left( { - {c_2}{n^{3 - 2\alpha }}} \right). $ | (5) |
则由式(3)~(5)可得
$ pr\left( {\left| {{{\hat \omega }_k} - {\omega _k}} \right| \ge c{n^{ - \alpha }}} \right) \le 3{n_\tau }\exp \left( { - {c_3}{n^{1 - 2\alpha }}} \right) + 3{n_\tau }\exp \left( { - {c_4}{n^{3 - 2\alpha }}} \right). $ |
那么容易得到
$ pr\left( {\mathop {\max }\limits_{1 \le k \le {p_n}} \left| {{{\hat \omega }_k} - {\omega _k}} \right| \ge c{n^{ - \alpha }}} \right) \le O\left( {{p_n}{n_\tau }\exp \left( { - {c_3}{n^{1 - 2\alpha }}} \right) + {p_n}{n_\tau }\exp \left( { - {c_4}{n^{3 - 2\alpha }}} \right)} \right). $ |
下面证明定理1的第二部分结论.
为了证明pr(Aτ⊆
$ pr\left( {{A_\tau } \subseteq {{\hat A}_\tau }} \right) \ge 1 - O\left\{ {{s_n}{n_\tau }\exp \left( { - {c_1}{n^{1 - 2\alpha }}} \right) + {s_n}{n_\tau }\exp \left( { - {c_2}{n^{3 - 2\alpha }}} \right)} \right\}. $ |
本文通过蒙特卡罗方法来验证所提出筛选方法的有限样本性质, 为了说明所提出方法IQ-SIS的优劣, 将与Q-SIS (文献[8])、SIRS (文献[6])和DC-SIS (文献[7])进行比较, 考虑样本量n为100或200, 协变量维数pn=2 000, 并重复200次试验, 筛选出的变量个数dn=[n/log (n)].为方便比较, 沿用文献[8]相同的模拟例子和评价指标, 其中指标p0为真实模型大小; Median为200次重复试验中包含所有重要预测变量的最小模型大小的中位数; IQR为200次重复试验中包含所有重要预测变量的最小模型大小的四分位差; PAll为200次重复试验中在给定筛选变量个数后, 筛选出包含所有重要预测变量次数的百分比.
例1 考虑如下模型
$ Y = {Z_1} + 0.8{Z_2} + 0.6{Z_3} + 0.4{Z_4} + 0.2{Z_5} + \sigma \left( \mathit{\boldsymbol{Z}} \right)\varepsilon , $ |
其中Z=(Z1, …, Zpn)T服从多元正态分布, 均值向量为0, 协方差矩阵Σ=0.8|i-j|, (i, j=1, …, pn), σ(Z)=exp (Z20+Z21+Z22), 且ε服从标准正态分布或标准柯西分布, 考虑分位数点τ取值为0.5或0.75.可见, 在分位数为0.5时, 真实模型的重要变量个数为5;分位数为0.75时, 真实模型的重要变量个数为8.为了给出更稳健的筛选结果, 根据所提出区间分位数的思想, 考虑分位数区间分别为[0.4, 0.6]和[0.7, 0.8]用于IQ-SIS.模拟结果见表 1.
![]() |
表 1 例1模型的变量筛选模拟结果 Tab. 1 Simulation results of feature screening for the model of example 1 |
例2 考虑更复杂的非线性模型
$ Y = Z_1^2\sin \left( {{Z_2}} \right) + Z_3^2 + {\cos ^2}\left( {{Z_4}} \right) + \sigma \left( \mathit{\boldsymbol{Z}} \right)\varepsilon , $ |
其他模拟条件与例1相同, 模拟结果如表 2所示.
![]() |
表 2 例2非线性模型的变量筛选模拟结果 Tab. 2 Simulation results of feature screening for the nonlinear model of example 2 |
从表 1和表 2的模拟结果可以发现, 本文改进的条件区间分位数筛选方法IQ-SIS要优于Q-SIS特征筛选方法, 具有更小的模型大小和更高的重要变量覆盖率, 并且随着样本量的增加, 筛选出包含所有重要预测变量的百分比显著增加, 并趋近于1.当考虑异方差情形的时候, 在0.75分位数条件下, IQ-SIS也较Q-SIS有更优良的表现.DC-SIS在所有结果中表现最差, SIRS由于考虑的是全局情况下的特征筛选, 所以相较于仅仅考虑0.75分位数范围的条件分位数筛选方法具有更好的表现.但如果所研究问题为特定分位数条件下的分位数回归问题, 则本文所提出方法则有其局部研究优势.总的来说, 本文所改进的区间条件分位数筛选方法较Q-SIS更加稳健可靠.
3 结论本文探讨了超高维数据的特征筛选和降维问题, 超高维数据建模的首要任务是通过快速便捷的降维方法, 将超高维减少为一般高维问题, 则传统的高维降维方法就可适用于数据建模.在现有超高维降维方法的基础上, 本文推广了无模型假设的基于条件分位数的特征筛选方法, 改善基于特定分位数水平而导致的可能由于分位数微小扰动产生的筛选变量的不稳定性.本文提出基于条件区间分位数的特征筛选方法, 并说明所提出方法具有无模型假设、计算简便、稳健性高的特点, 并从理论上证明了所提出方法满足特征筛选的筛选相合性.此外, 本文还通过蒙特卡罗数值模拟验证了所提出方法的有限样本性质, 结果表明所提出方法能够改善传统的基于特定条件分位数的特征筛选方法的筛选降维效果.
[1] |
TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. Journal of the royal statistical society: series B, 1996, 58(3): 267-288. ( ![]() |
[2] |
FAN J Q, LI R Z. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. Journal of the American statistical association, 2001, 96(456): 1348-1360. DOI:10.1198/016214501753382273 ( ![]() |
[3] |
ZOU H. The adaptive lasso and its oracle properties[J]. Journal of the American statistical association, 2006, 101(476): 1418-1429. DOI:10.1198/016214506000000735 ( ![]() |
[4] |
FAN J Q, LV J C. Sure independence screening for ultrahigh dimensional feature space[J]. Journal of the royal statistical society: series B, 2008, 70(5): 849-911. DOI:10.1111/rssb.2008.70.issue-5 ( ![]() |
[5] |
FAN J Q, SONG R. Sure independence screening in generalized linear models with NP-dimensionality[J]. The annals of statistics, 2010, 38(6): 3567-3604. DOI:10.1214/10-AOS798 ( ![]() |
[6] |
ZHU L P, LI L X, LI R Z, et al. Model-free feature screening for ultrahigh-dimensional data[J]. Journal of the American statistical association, 2011, 106(496): 1464-1475. DOI:10.1198/jasa.2011.tm10563 ( ![]() |
[7] |
LI R Z, ZHONG W, ZHU L P. Feature screening via distance correlation learning[J]. Journal of the American statistical association, 2012, 107(499): 1129-1139. DOI:10.1080/01621459.2012.695654 ( ![]() |
[8] |
WU Y S, YIN G S. Conditional quantile screening in ultrahigh-dimensional heterogeneous data[J]. Biometrika, 2015, 102(1): 65-76. DOI:10.1093/biomet/asu068 ( ![]() |
[9] |
脱倩娟, 赵红. 基于局部邻域嵌入的无监督特征选择[J]. 郑州大学学报(理学版), 2016, 48(3): 57-62. ( ![]() |
[10] |
KOENKER R, BASSETT G. Regression quantiles[J]. Econometrica: journal of the econometric society, 1978, 46(1): 33-50. DOI:10.2307/1913643 ( ![]() |
[11] |
ZHENG Q, PENG L M, HE X M. Globally adaptive quantile regression with ultra-high dimensional data[J]. Annals of statistics, 2015, 43(5): 2225-2258. DOI:10.1214/15-AOS1340 ( ![]() |