您的位置:首页

详情

创新高维统计方法 推进大数据应用——中国科学技术大学郑泽敏博士

2018-01-05

大数据时代给现代统计科学带来了深远而全方位的影响,它不仅使许多经典统计方法不再适用,也让现有的高维统计推断方法面临延展性方面的巨大挑战。此外,随着高维统计学的不断发展,更为复杂且具有重要意义的统计过程如错误率控制等在高维情况下的方法论也亟待研究。其次,现代大规模数据分析往往需要多个学科的共同参与,统计学作为数据分析的重要工具,需要与机器学习、运作管理、遗传基因组分析等学科相结合以解决国计民生中存在的实际问题。因此,统计学家需要创造性地发展当代统计学方法论,将各种大规模复杂数据的分析方法融会贯通,使统计学成为一门现代意义上的数据科学。

中国科学技术大学郑泽敏博士长期从事高维统计推断和大数据问题研究,取得了富有创造性的研究成果,例如:高维模型选择及参数渐近无偏估计等普遍适用的统计方法论,针对大数据问题而提出的具有良好延展性的新型统计方法,在遗传基因组学和传播网络推断等当代热点科学领域具有重大的应用价值。

一、高维回归分析

回归分析是研究变量间线性相依关系的统计方法,因其运用简便并且建立的模型解释性强而获得极其广泛的应用。随着当今科学技术的快速发展(如基因测序技术),高维数据的收集成为可能并且其分析的需求也日益增长。但是在高维情形下,变量数量巨大甚至大于样本个数,经典的统计方法如最小二乘法等不再适用。现实的需求和方法创新的挑战使得高维回归分析成为统计学近十年来最为火热的研究方向之一。尽管此前已有相当数量的研究通过在最小二乘目标函数中引入惩罚项的正则化方法实现高维回归分析中重要变量的挑选以及相应回归系数的估计,这类研究仍存在两点重要不足:一是基于凸惩罚项的正则化方法如 Lasso等往往无法获得回归系数的渐近无偏估计;二是现有高维回归分析方法的估计误差上界中通常含有对数因子log p,此类估计误差上界是否能被进一步优化仍然未知。

为克服以上两点不足,郑泽敏博士研究了一类基于非凸惩罚项(hard-thresholding)的正则化方法,证明它与理论性质优异但计算上难以实现(NP)的最优子集挑选法(best subset selection)渐近等价,并运用现代经验过程理论和集中不等式证明这类正则化方法可以实现模型选择的渐近相合性和回归系数的渐近无偏估计。在建立的预测和估计误差上界中,对数因子log p被log n所取代,说明已有估计误差上界中的对数因子log p并非最优,这对于变量个数p随样本数量n呈指数级别增长的超高维情形来说是非常重要的提高。该成果还研究了高维情况下的收缩效应,即通过适当收缩统计估计量以减少方差来实现均方差的最优化,确定了最优的收缩参数及优化后的均方差。此成果被《皇家统计学会杂志:B辑》主编誉为是对高维收缩效应的一次探索,富有创新性。

此外,他还提出了基于压缩感知领域著名统计方法Dantzig selector的新型高维回归分析方法,此方法获得模型选择渐近相合性所需的信号强度是现存文献中最低的,并证明了该非凸正则化方法局部最优解和全局最优解在适当条件下的渐近等价性。针对高维回归分析中关于稀疏性假设的局限性,研究了稀疏结构与潜在因子联合建模的理论框架,即刨除重要的共同潜在因子后回归系数才具有稀疏性。这一框架极大地弱化了稀疏假设的限制性,在遗传基因组学中有着重要应用。

二、高维统计归类

统计归类是基于一组协变量的观测值对应变量进行归类的数据分析方法,广泛运用于人脸识别、脑图像处理以及复杂疾病的诊疗与预后,具有极为重要的科学和临床应用价值。经典的统计归类方法包括关于协变量的线性判别法则和二次判别法则。高维情况下,样本协方差矩阵的奇异性使得上述方法不再适用,因此研究者们提出了基于正则化方法的稀疏线性判别法则来应对高维归类问题的挑战。然而,越来越多的科学研究发现高维线性判别法则并不足以进行准确的归类,例如疾病的发生除了基因或环境的单独作用外,还受到基因之间和基因与环境之间交互作用的影响。这不仅是因为不同类别的数据之间可能存在非线性的区分界限,更由于线性判别法则要求所有协变量在不同类别中拥有相似的相依结构关系(协方差矩阵相同),这一要求极大地限制了高维线性判别法则的适用性。

日益增长的需求使得统计学家将目光转向非线性判别法则,特别是兼顾二次交互作用的判别法则。但是,考虑二次交互作用将使得原本庞大的协变量个数呈平方级别增长,这不仅让科学计算的复杂度大幅增加乃至超过一般计算机的最大负荷,还会提高变量之间的相关系数使得统计归类的精确性大打折扣。因此,直接将现有高维线性判别法则运用于含有二次交互作用的增广模型是难以适用的。为克服这一困难,郑泽敏博士发现重要交互变量在经过一种特殊的线性变换后在不同类别间将呈现不同的方差,从而将重要交互变量的挑选问题转化为方差比较的问题,极大地简化了二次交互作用挑选的复杂度。基于这种巧妙的数据变换,郑泽敏开创性地提出了针对含有二次交互作用的归类问题且具有模型选择渐近相合性的高维统计归类方法,相关成果发表在国际统计学期刊Annals of Statistics(43,1243-1272,2015)上。

三、大数据问题

当今科学及存储技术的迅猛发展,使得样本数量与变量个数均庞大的超大规模数据集成为可能,而针对大数据问题的可延展性统计方法也获得前所未有的关注。统计方法的可延展性指其面对超大规模数据集时计算简便度及分析精确性都不会受到较大影响,而且适用于高效计算技术,例如并行运算等。目前最典型的针对大数据问题的统计方法主要是高维回归分析中对样本数据进行分拆,然后再结合(各分拆集中获得的统计量)。然而这一分析框架并不能解决所有的大数据问题,特别是当统计方法的计算复杂度和分析准确性的瓶颈不在于样本大小的时候。郑泽敏博士针对高维多元回归分析及相依结构推断出了一种可延展性统计方法,此类方法在遗传基因组分析、传播网络推断以及风险管理中具有重大的应用价值。

基于回归系数矩阵的低秩性和稀疏性假设,现有的高维多元回归分析方法主要是通过在目标函数中引入关于奇异值和矩阵元素的惩罚函数从而得到准确估计量的正则化方法,而这些正则化方法的实现往往需要多次奇异值分解。此外,正则化方法的迭代特性使得它们无法高效地在并行运算等计算技术中应用。针对这些困难,郑泽敏博士通过进行解决赖于正则化的高维多元回归分析方法(SEED)。它的实现只需要进行单次主要奇异值分解,将回归系数矩阵估计转化为广义特征向量求解的问题,提出了具有渐近相合性且不依,使其具有延展性,并高效地运用于并行运算计算平台。

专家简介

郑泽敏,教授。2006—2010年,中国科学技术大学,数学与应用数学,学士;2010—2015年,美国南加州大学,应用数学,博士,主要研究方向:高维统计推断,变量选择、分类,大数据问题。入选第十三批国家千人计划青年项目及福布斯中国U30(30位30岁以下科学家)精英榜。