绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友
万方知识发现服务平台
获取范围
  • 1 / 15
  (已选择0条) 清除 结果分析
找到 296 条结果
[博士论文] Shahid Hussain
Probability Theory and Mathematical Statistics 大连理工大学 2018(学位年度)
摘要:统计过程控制(SPC)是一系列通过统计分析来监控制造和非制造过程的方法。过程控制是用来提高产品和服务质量的连续的过程。波动是一个过程的重要部分,并且为了提高过程的质量,不能忽视这些波动。所有生产过程都会受波动的影响。这些波动可以分为两类:普遍原因引起的波动和特殊原因引起的波动。及时监测由特殊原因引起的波动对任何过程的执行都有重要作用。在检查产品是否符合他们所设计的要求时,控制图特别有用。控制图是最重要和常用的工具,用于识别由特殊原因引起的波动。通过使用控制图消除这些变化,可以控制和改进对任何制造,生产或工业过程的监控。Shewhart型控制图可以有效地控制或检测过程中的大量由特殊原因引起的波动,而指数加权移动平均值(EWMA)-累积和类型控制图(CUSUM)则在过程中由特殊原因引起的波动数量中等和少量时更有效。常常假设参数是已知的或通过IC采样被正确估计,并且数据没有异常值。因此,通过这些假设,可以利用均值和方差(或标准偏差)控制图完成位置和比例参数的监测。但实际上,这些假设并不正确,过程偶尔会有异常。此外,利用关于辅助变量的信息有助于提高估计器的精度,并因此提高制图结构。本文致力于研究一些改进的控制图表结构,其作为插件用于统计过程控制(SPC)工具包。文中提出的图标结构是基于一些辅助特性的信息,可用于设计位置和尺度参数。文中方法的性能表现通过一些有用的度量来评估,譬如平均运行链长(ARL),额外二次损失(EQL),相对平均运行链长(RARL),性能比较指数(PCI)。分别在正态、对数正态以及学生t分布(有和没有噪声污染)过程中利用简单随机抽样度量其表现能力。本文利用蒙特卡罗模拟比较了不同的控制图策略,并做了一些真实数据的分析,以突出其实际应用价值。
[硕士论文] 卞松寒
统计学 北京交通大学 2018(学位年度)
摘要:随着统计学相关理论的广泛应用,时间序列分析已经成为跨学科研究的热点.其中,时间序列的复杂性和递归性也逐渐成为探索真实世界演进变化的重要手段.通过对时间序列复杂性和递归性分析,人们能有效地掌握复杂系统的规律性,进而展开预测等应用.本文对时间序列的复杂性和递归性进行了理论和应用两个层面的研究.理论方面,本文提出两种新的研究模型,其一是在两个一元熵q熵和δ熵的基础上,提高模型参数的敏感度,提出二元熵模型,进而对复杂度相似的时间序列进一步区分其复杂性.其二是不同于现有的几种递归定量分析模型,从奇异值的角度提出新的递归定量分析模型PSVP,来研究时间序列的周期性和递归性.应用方面,本文针对这两种新提出的模型,分别使用金融时间序列、交通流时间序列和生理时间序列进行实验,对上述时间序列的复杂性和递归性进行分析研究.
  分析时间序列复杂性的参数有很多.本文主要借助熵的相关理论来对非平稳时间序列的复杂性进行度量.目前熵相关的理论模型已非常丰富,如BG熵,置换熵,样本熵等.本文将建立在著名的q熵和δ熵的基础上,提出一种新的二元熵模型来对非平稳时间序列进行复杂性测量.新的二元熵在测量非平稳时间序列的复杂性时有更广的应用范围.在新提出的二元熵的基础上,本文分别针对二元熵模型中两个参数进行分析,进一步建立了多尺度分析的模型.之后选取全球7个金融市场的股指收益率作为真实时间序列,利用提出的二元熵模型,对各金融市场的收益率序列进行复杂性分析,并以二元熵为依据,对7个金融市场进行分类.结果表明国内股票市场的复杂度高于欧美较为成熟的金融市场,结论与实际相符,这也证明了新提出的二元熵能够对非平稳时间序列的复杂性进行有效的测量.
  时间序列的递归性是指时间序列中某些序列状态重复出现的特性.时间序列的递归性的准确判断,将有助于直接判别时间序列的可预测性,进而极大提高时间序列预测的准确性.同时,部分时间序列的递归性在一定程度上也能反应出时间序列本身的周期性和规律性,这在复杂系统运行模式的识别方面有着广阔的应用前景.本文通过构建新的递归定量分析指标PSVP,对时间序列的递归性进行了研究.我们首先对新指标进行了模拟数据的测试,通过高斯白噪声和逻辑映射的实验,我们发现新指标PSVP能够显著地对时间序列的递归性进行度量.真实数据实验也表明,PSVP模型在生理数据和交通流数据上能准确度量其递归性,有效辨别心脏病的心跳特征以及周末和工作日交通流的递归性,并且度量区分度优于传统的递归定量分析模型.
[博士论文] 徐红霞
统计学 浙江工商大学 2018(学位年度)
摘要:在生存分析、医药追踪试验、可靠性与寿命试验等许多实际问题中,经常遇到不完全数据.不完全数据给数据的使用和分析带来了很大困难,也是造成信息系统不确定的主要原因之一.如何有效的利用这些不完全数据信息进行统计推断具有重要的实际意义.非参数回归模型在完全数据下的统计性质已经发展得较为完善,而在不完全数据下的统计分析还是一个历史不长、有待进一步发展的领域.本文是在不完全数据下,研究半参数回归模型的统计推断问题.主要有以下四个方面的研究工作:
  第二章,主要研究缺失数据下带不等式约束的反应变量均值的假设检验当反应变量是随机缺失时,我们利用纠偏加权的方法进行插值,构造反应变量均值的带不等式约束条件的纠偏的经验对数似然比检验统计量,在一定的条件下,获得了检验统计量的渐近分布,这些结果可用来构造拒绝域.结果表明,有辅助信息的检验统计量比没有使用辅助信息的检验统计量更加有效.模拟研究用来评估所提方法在有限样本下的表现.
  第三章,考虑缺失数据下的部分线性测量误差模型的非参数检验问题.为了克服测量误差带来的偏倚,借助二次条件矩方法,我们提出了两个纠偏的检验统计量,获得了检验统计量的极限零分布以及检验的p值.通过比较p值,我们发现提出的两个检验统计量有类似的理论性质.同时,我们提出的检验可以以局部光滑方法中的最优速度识别出备择假设.最后通过模拟研究来演示提出的检验方法的表现,并将提出的方法应用到ACTG175数据研究中.
  第四章,在反应变量是随机左截断数据下,研究部分线性分位数回归模型的估计和变量选择问题.首先,基于截断变量分布函数的乘积限估计所确定的权重,我们对模型中的参数和非参数部分提出了一个三阶段估计过程.结果表明:第二阶段和第三阶段所得到的估计量比第一阶段的初始估计量更有效.其次,为了获得回归参数的稀疏估计,我们结合SCAD惩罚方法给出了部分线性分位数回归模型的变量选择过程.模拟研究用来评估提出的估计量及变量选择方法在有限样本下的表现.
  第五章,在随机截断数据下,我们研究了变系数模型的分位数估计和检验.首先,为了处理截断数据,我们引入了随机权并构造了非参数函数的加权分位数估计量获得了加权分位数估计量的渐近性质.其次,为了改进估计的有效性,我们进一步提出了非参数函数的加权复合分位数估计量,建立了加权复合分位数估计量的渐近性质.然后,为了检验变系数分位数回归模型中的非参数函数是否是某一个具体的函数形式,我们提出了一个新的基于Bootstrap的检验方法.最后通过模拟研究和实例来验证文中提出的估计和检验方法。
[硕士论文] 李勋健
应用统计 山东大学 2018(学位年度)
摘要:在统计学学科中,变量筛选问题已经有几十年的研究历史。在传统的线性统计模型中,逐步回归是一个非常有效的用来做变量筛选的统计方法。但逐步回归在处理高维数据的时候,该方法所存在的效率严重低下的问题就开始暴露出来了。从Tibshirani(1996)提出Lasso估计开始,变量筛选就成为一个新的热门领域被统计学家推广,并且发展得到了很多新的模型。
  作为本文的一个重要工作之一,就是梳理变量筛选模型的发展演变,以及探讨变量筛选模型的行之有效的基本原理。Tibshirani(1996)提出Lasso估计,解决了传统线性模型所不能解决的变量数目远大于样本量的问题。Lasso方法不仅可以得到良好的参数估计,并且还能达到减少无关变量的数目,精简模型的目的。为了有效的得到Lasso方法的参数估计,Fu在1998年提出了“shooting”算法;Osbome,M.R.随即提出了Forward-Stepwise Selection和Forward-Stagewise Regression算法;Efron在2004年提出了LARS。这些算法的提出,本身就是对Lasso方法有效性的最好的阐释。受这些算法的启发,本文将从“效用”角度阐释Lasso方法具备变量筛选的原理和岭回归在变量筛选中的失效问题。Lasso方法也有其天然的缺陷,得到模型的参数估计是有偏的,并且估计结果不稳定。Fan和Li(2001)提出一个优秀的估计模型的标准就是模型需要满足Oracle性质,即无偏性,稀疏性和连续性,并给出满足Oracle性质的SCAD方法。在新的标准下,更多的满足Oracle性质的方法被提出。Zou和Hastie(2005)提出了Elastic Net Lasso;Zou(2006)提出Adaptive Lasso;Yuan和Lin(2006)提出了Group Lasso等。与SCAD方法不是凸优化不同的是,上述方法的优化问题都满足凸优化的性质,即需要优化的目标函数的局部最优等于全局最优。并且Elastic Net Lasso和Group Lasso由于添加了二范数惩罚,使得变量筛选模型具备“组效应”,从而避免了在两个有较高相关性的有效变量中,只能选择一个变量的问题。为了能够更直观地比较各方法的优劣,文中给出了一些实例,并给出各自模型的计算效果。
  本文还将介绍近年来变量筛选模型的变化趋势。将简要介绍Bien,Taylor和Tibshirani(2010)提出的All Pairs Lasso,Tibshirani和Friedman(2018)提出了Pliable Lasso。他们是拥有等级交互效应的Lasso模型的变异,能够针对特定的目标群体,自行修改得到估计参数,以提高模型的估计精度。
  本文着力从“效用”角度去解释各个方法的原理,用更加清晰地方式认识变量筛选的原理,阐释各自方法的优劣。本文还将给出几个与Lasso有关的推广和应用。给出一个Stagewise的推广算法。由于变量模型逐步向复杂化方向发展,缺乏根本性的创新,本文在最后章节将指出现在变量筛选模型变化趋势所存在的问题。
[硕士论文] 江坤
统计学 安徽大学 2018(学位年度)
摘要:在统计学习中,支持向量机是用来处理分类和回归问题的监督学习算法,其以泛化能力强在学术界和工业界有着大量的研究和应用.支持向量机通过核方法处理非线性问题,而在数据分析研究领域另一种广为人知的处理非线性问题的方法是惩罚样条.惩罚样条不需要明确变量间的函数关系,充分利用数据本身去选择合适的回归函数来拟合数据的变化趋势,能很好的解决变量之间的非线性问题.
  本文首先提出一种新的局部惩罚样条回归方法,该方法能够很好的解决数据具有局部异质性的问题,其采用对数据波动较小的区域实行较大的惩罚,波动较大的区域实行较小的惩罚策略,充分的利用数据去驱动模型的惩罚,在实际模拟中表现出较好的效果,其次,本文将惩罚样条与支持向量回归结合起来,利用低秩样条可以显著的降低计算复杂度,并且表现出较好的泛化能力.最后为了减少基于惩罚样条的支持向量回归的超参数数量,本文提出了基于惩罚样条的自适应支持向量回归,该方法较基于惩罚样条的支持向量回归明显减少了需要选择的超参数个数且泛化能力更优.
[硕士论文] 戴迪帆
应用统计 浙江工商大学 2018(学位年度)
摘要:当前我们所处的社会正在经历着第四次工业革命,驱动着这一全新的技术革命的基础是数据。数据已经变得和水、电、土地、空气、森林、草原、矿藏等资源一样,成为了当今社会的一种新生资源。于是处理数据资源的方法,即统计分析越发成为人们关注的焦点,而其中多元线性模型算是最普遍也是应用范围最广的一种数据分析技术方法。
  在所谓大数据的当下,数据的复杂程度和数据维度的急速扩大使得一些传统的统计分析方法难以适应,比如最小二乘估计,这些原始的分析方法得到的结果逐渐地开始失效,无法对结果进行合理的解释。于是便出现了如岭回归估计、lasso、最小角回归等一系列更加适应当前实际情况的新方法。这些方法不但具有理论上的突出意义,在实际应用中,例如在数据挖掘、机器学习等数据维度特别大的场景下同样有着巨大的意义。无论是对数据进行降维、分类还是预测,这些新的方法开始越来越多地应用,不断地改变着我们的生活。
  本文在现有文献的基础上,对岭回归估计方法进行了整理和介绍,包括它的背景、基本理论、性质以及对其性质的证明,不仅如此,还详细阐述了岭回归估计参数k的选取方法并罗列了常见的和经典的岭回归估计参数k的选取。接着对数据增广方法的提出背景、适用范围和具体方法进行了整理和扩充,并通过两个实例充分展示了数据增广方法作为一种辅助技术的适用性和易用性。在上述基础之上,本文提出了基于数据增广方法改进的岭回归估计,通过数据模拟的对比结果表明,改进后的方法确实提高了预测的精度和预测的稳定性。
[硕士论文] 吴方涛
统计学 浙江工商大学 2017(学位年度)
摘要:Gamma分布是统计学中的重要模型,在可靠性及其他领域有广泛的应用。关于Gamma分布的统计推断问题,已有许多学者进行了研究。但是Gamma分布的统计推断仍有一些问题存在,比如当形状参数较小时,现有方法置信区间的实际覆盖率与名义覆盖有较大的偏差。
  本文主要讨论了Gamma分布及其环境因子的统计推断。首先,基于Cornish-Fisher展开式和枢转化累积分布函数定理,推导出了形状参数的近似置信区间。其次,探讨了尺度参数和其他可靠性特征(如均值)的广义置信区间。基于提出广义置信区间的方法研究了下一次测量和at leastp ofm measurements at each of r locations的预测置信区间。使用蒙特卡罗模拟评估所提出的方法的估计性能,模拟结果表明,本文提出的方法有非常满意的结果。最后,本文研究了Gamma分布环境因子的点估计和区间估计。在这部分,先研究了点估计,包含极大似然估计和推导的无偏估计,模拟结果显示无偏估计的估计性能更好;另外一部分研究了区间估计,包括广义置信区间与Bootstrap-t置信区间,模拟结果显示广义置信区间和Bootstrap-t置信区间均有良好的表现。当形状参数和样本量较小时,广义置信区间要优于Bootstrap-t置信区间。在每个模拟研究过程后,本文给出了实际例子的计算说明,结果显示,实际结果与模拟结果是一致的。
  本文提出的推断方法,有效解决了当Gamma分布形状参数较小时,参数及可靠性特征置信区间的实际覆盖率与名义覆盖率不匹配的问题。在构造形状参数置信区间的方法上有一定的创新。
[硕士论文] 焦春明
统计学 浙江工商大学 2017(学位年度)
摘要:在现实生活中,人们经常会面临各种复杂的评价问题,单一的个体评价技术已经不能满足复杂评价活动的要求了。因此,人们常常需要通过构建一个由多个评价主体组成的群组来进行评价活动,并把群组成员评价意见以专门方式集成为最终的评价意见,这种评价技术即为群组评价。
  相对于个体评价技术,群组评价技术能够聚集更多评价信息,并且得到的评价结论具有更高的可信度。但是在群组评价活动中,随着评价主客体数量趋向于规模化、评价信息的类型趋向于多样化、评价处理的方式趋向于复杂化,群组评价意见的一致性越来越难达成。基于此,本文分析了个体评价技术在向群组评价技术演化过程中可能存在的问题,并系统地分析了影响群组评价意见达成一致的因素,进而设计了相应的一致性测度指标和提升机制。
  因此,本文主要研究思路是:首先,为了消除异质群组对群组评价一致性的不利影响,笔者从子群内一致性和整体一致性这双重视角出发,设计了群组评价意见一致性的测度指标,以识别异质群组对一致性的影响;并基于一致性视角对两阶段链式子群进行适当的改进,提出了基于两阶段链式子群的一致性提升机制。然后,考虑到权重分配方案也会对群组评价的一致性程度产生影响,笔者设计了基于相似度的一致性测度指标,以识别这一影响;并从子群和评价个体这两层权重动态优化的角度出发,提出了基于评价者权重优化的一致性提升机制。最后,为了使权威专家能够合理的引导其他评价个体及进行评价活动,避免过度权威现象和缺乏权威现象的出现,使群组评价一致性回归到合理的范围内,笔者设计基于偏差度的一致性测度指标和基于适度权威的一致性提升机制。
  此外,本文主要贡献在于:其一,将有关一致性的研究从“群体决策领域”扩展到“群组评价领域”;其二,阐述了个体评价向群组评价演化的过程中可能存在的问题,并着重分析了影响群组评价一致性的因素;其三,根据影响群组评价意见一致性因素的不同,设计了相对应的一致性测度指标,以便于识别这些因素对群组一致性的影响程度;其四,为了消除这些因素对群组评价意见一致性的不利影响,设计了相对应的一致性提升机制。
[博士论文] 蔡超
工商管理 合肥工业大学 2017(学位年度)
摘要:大数据时代,随着数据生成、收集与存储技术的发展,以大样本与高维为典型特征的大规模数据将会大量涌现。这为探索客观规律带来了机遇,也为统计分析带来了挑战。在统计方法中,分位数回归常用来反映解释变量对响应变量整个条件分布的异质影响,能够细致刻画响应变量的尾部行为,是探索客观规律的重要手段与方法之一。常用的统计软件都可进行分位数回归,但受到计算内存和运行时间的限制,大规模数据分位数回归往往难以奏效。因此,在大数据背景下,研究大规模数据分位数回归方法,解决其建模过程中的技术难题,对于推广应用、揭示经济和社会的复杂模式等,具有重要的理论意义和实践价值。
  本文选取“基于大规模数据的分位数回归方法及应用”这一研究主题,综合应用统计学和计量经济学等学科知识,采取理论分析、数值模拟和应用研究相结合的范式,将经典的分位数回归模型从中小规模数据扩展到大规模数据,并取得了好的数值模拟与应用研究结果。论文的主要工作和创新点如下:
  (1)建立基于稀疏指数转移方法的大样本数据分位数回归(SETQR)。SETQR方法既能较快速地处理大样本数据分位数回归问题,又能获得精确的结果。首先,给出了其完整建模步骤,并在理论上证明了其参数估计的误差范围;其次,通过数值模拟,研究SETQR方法的估计效果、预测能力和运行时间,并将其与全样本分位数回归、SPC2和SPC3方法进行对比,发现前者在估计和预测结果上与后者基本相同,但在运行时间上,前者明显优于后者。最后,将SETQR方法应用于中国股票市场,研究股票收益与指令不均衡之间的关系,结果表明:滞后1期指令不均衡在高分位点处对股票收益具有正向影响且呈现上升趋势,而在低分位点却具有负向影响;控制当期指令不均衡后,滞后期指令不均衡对股票收益具有负向影响,且随着分位点的增加呈现下降趋势。这些结果将有助于投资者了解和掌握股市指令不均衡变化所预示的股票未来收益率的变动规律,指导其针对不同股票制定相应的风险防范措施和投资策略。
  (2)建立基于随机抽样算法的大规模数据Lasso分位数回归(SLQR)。SLQR方法既能处理大规模数据分位数回归问题,又能进行变量选择,从而提高模型的解释能力与预测精度。首先,给出了SLQR方法的完整建模步骤,并证明了其参数估计的误差范围;其次,通过数值模拟,研究发现:在估计和预测能力上,SLQR方法与全样本Lasso分位数回归非常接近,而在运行时间上,前者明显优于后者;SLQR方法能够实现变量选择。最后,将SLQR方法应用于美国温室气体监测数据,研究各监测点温室气体浓度对温室气体合成浓度的贡献,结果表明:在估计效果、预测能力和变量选择能力等方面,SLQR方法与全样本Lasso分位数回归非常接近;部分监测点的权重为0,表明这些监测点的温室气体浓度对温室气体合成浓度没有影响;其余监测点的权重大都随着温室气体合成浓度的提高逐渐减小,这意味着在温室气体合成浓度的不同水平时,要针对不同的监测点进行重点关注。
  (3)建立基于分块估计方法的大样本数据分位数回归(BAQR)。BAQR方法不仅能够显著降低计算内存的需求,获得更加精确和稳定的估计和预测结果,而且能够处理流数据,及时获得估计结果。首先,给出BAQR方法的完整建模步骤,并理论上证明了BAQR方法参数估计的渐近性质:一致性、收敛速度和渐近正态性。其次,数值模拟结果显示:BAQR方法的估计和预测结果不仅与全样本分位数回归基本相同,而且明显优于SETQR、SPC2和SPC3方法。最后,将BAQR方法应用于中国劳动力市场,研究收入决定机制,结果表明:教育回报率为正,且其随着收入水平的提高逐渐降低;收入与工作经验之间呈现“倒U”关系,且随着收入水平的提高,收入经验曲线的弯曲程度逐渐减小。此外,劳动力市场上存在明显的性别和城乡歧视。因此,提高居民的教育水平和取消对女性和农村居民的就业歧视政策,有助于缩小居民收入差距。
  (4)建立基于分块估计方法的大规模数据Lasso分位数回归(BLQR)。BLQR方法不仅能够进行变量选择,获得更为“精致”的模型,而且能够适应于变量数目大于样本量的情形。首先,给出BLQR方法的完整建模步骤,并理论上证明了BLQR方法参数估计的渐近正态性质;其次,数值模拟结果显示:在估计和预测能力上,BLQR方法不仅与全样本Lasso分位数回归类似,而且明显优于SLQR方法;BLQR方法能够实现变量选择。更重要的是,当有新数据时,BLQR方法只需要对新数据进行回归就可更新原有的估计结果,这表明BLQR方法特别适合流数据分析。最后,将BLQR方法应用于美国温室气体监测数据,确定各监测点温室气体浓度对温室气体合成浓度的贡献,结果表明:在估计效果、预测能力和变量选择能力等方面,BLQR方法的结果与全样本Lasso分位数回归的结果非常接近,且优于SLQR方法;与SLQR方法相比,BLQR方法计算的权重更精确稳定,这有助于监测机构制定更合理的监测机制,高效的监测温室气体浓度。
[硕士论文] 徐宇明
统计学 江西财经大学 2017(学位年度)
摘要:统计数据显示,江西省全省共有4500多万人口,其中农村人口有2200多万,总共占全省人口的49%。江西省共有70个县(市),其中国家级贫困县有21个,人口多达1200多万,占全省人口的近27%。江西省有4个县享有国家级贫困县帮扶政策,在扶贫的道路上任重而道远。逐步缓解并消除农村贫困是省政府面临的重大挑战,政府在制定相关政策时主要围绕如何消除农村贫困问题展开。消除农村贫困的前提是要精准识别江西省农村的贫困现状。本文构建了一套具有科学性、可比性且适用于江西省的贫困线计算方法,该方法较好地测算出了江西省农村贫困的广度指数、深度指数与强度指数。通过以上的贫困测度方法,分析出了江西省农村居民贫困的原因,为农村反贫困政策的制订提供科学依据。
  贫困线是识别和分析贫困的起点,目前,贫困线的测度方法主要有市场菜篮子法、恩格尔系数法、马丁法、国际贫困标准法和扩展线性支出系统法等。本文基于江西省农村贫困的背景并且结合了相关学者在贫困方向的研究,探讨了贫困的内涵、分类以及测算的方法。运用最低营养法结合江西省农产品的价格和农村居民的消费结构对江西省农村食物贫困线进行了调整,根据CFPS数据通过马丁法来测算出贫困线、计算居民的贫困指数来反映出江西省农村贫困的具体情况。对比全国标准和国际标准测算出来的贫困指数,发现在全国统一贫困标准下测算出的贫困指数普遍偏低,贫困人口数量是江西省标准下测算出人口的四分之一左右,贫困缺口率和平方贫困距的数值都很小,会低估江西省贫困现状。而使用国际统一的一天1.5美元的标准前期对江西省贫困人口的识别相差不大,但是随着后期生活水平的提高,此标准也逐渐不能用于精确的识别贫困人口。对比这三条贫困线,使用马丁法测算出的标准线是基于江西省的实际情况,更具有实践意义。而如果一直使用全国统一的标准会极大的低估江西省农村贫困人口、贫困深度和贫困广度,非常不符合江西省的实际情况,不利于政府进行扶贫工作的开展。
  贫困测度的目的有助于识别贫困、监控贫困、获取贫困特征,进而引起公众的注意,并为反贫困政策的制订提供理论依据。故依照地区的消费结构和物价水平来构建合适的贫困线十分重要,本文的研究有助于社会各阶层认识和理解江西省农村的贫困人口,为构建和谐社会的可持续发展提供相关理论依据。
[博士论文] 潘传快
农业经济管理 华中农业大学 2017(学位年度)
摘要:中国是农业大国,虽然农业产值占GDP的比重不到10%,但农业就业人口仍占到了总就业人口的28.3%,农业仍旧是国民经济和社会发展的基础。在科学研究中,农业经济以及农业管理的研究仍是必要和重要的,而这些农业经济管理研究很多都需要开展农业经济调查以获取数据,然后在数据分析的基础上得到结论。
  跟任何调查一样,农业经济调查会遇到一个几乎无可避免的问题:缺失值,农户的无回答或者调查人员的疏忽都会让农业经济调查数据产生缺失值。但跟其它调查,如市场调查、民意调查不同的是,农业经济调查有很强的特殊性,比如农业经济调查仍使用古老的人员访问方法、调查问卷中存在大量的开放性问题、能获得较多辅助信息、随机性不高但农户调查配合度较高等等。
  结合农业经济调查的特点和数据缺失的原因,提出本研究特定的假设条件:调查数据来自一个正态总体;调查数据是随机获得的;变量类型以数量变量为主;数据的缺失模式是单一缺失和一般缺失;数据的缺失机制是完全随机缺失(MCAR)和随机缺失(MAR)。基于这些基本假设,本研究提出了农业经济调查数据的缺失值处理构建一套较系统的模型和方法。这套模型其实是一个完整的逻辑体系,但为了叙述方便分成三部分:删除模型、单一插补模型和多重插补模型,每一个模型又包括很多具体的方法。
  本研究的基本逻辑是,根据假设和条件提出一个模型,在这个模型中提出基本方法,利用理论分析和模拟分析其缺陷,然后改进提出新的方法;如果假设和条件改变,又使用新的模型,为新的模型寻求方法并分析改进。
  删除是缺失值处理的最基础模型。大部分农业经济调查人员都采取该模型将缺失值当作无效数据删除,大部分的数据分析软件也默认删除缺失值。删除一般是指成列删除,也就是删除所有含缺失值的个案,留下完整数据。当数据的缺失比重很低时,删除缺失值倒也无所谓,但是当数据缺失比重较大或者变量很多时,就会导致大量个案被删除。本文用不同的缺失比例模拟随机产生农业经济调查缺失数据,分析发现当变量很少时,缺失比重略高一点删除比例也不会太高,但当变量稍微多一点,哪怕很小的缺失比重都致使大量的数据被删除。
  一个可供替代的删除方法是,如果我们不需要完整数据,只要使用可用的个案计算参数估计,这样就可以尽量减少数据删除,这就是成对删除。但成对删除会让估计量来自不同大小的样本,造成很多参数估计麻烦。此外本文的模拟分析发现,其实成对删除在对缺失农业经济调查的相关关系估计上并没有显著超过成列删除。
  当数据不是完全随机缺失(MCAR)时,无论是成列删除还是成对删除都会产生有偏的估计。可以利用辅助信息将目标缺失变量分层,根据各层的完整观测数据计算各层均值,然后再将各层均值以缺失概率作权数加权平均,这样就可以一定程度上弥补成列删除估计的有偏性,这就是加权调整的方法。本文通过模拟生成随机缺失(MAR)下的目标缺失变量和与之正相关的辅助变量,然后加权调整方法的获得的均值估计非常接近真值,而成列删除的均值估计明显偏小。
  用删除方法删掉的数据信息也许是有用的,再者对农业经济调查数据因为缺失值的存在而粗暴地删除,从心理上也是难以接受的,对数据的缺失值进行插补也许是一种更好的模型。插补分为单一插补和多重插补,前者指为缺失值提供单一插补值,后者是指对每一个缺失值,其插补值不止一个。插补的基本思想是根据数据的后验分布,用数据的观测部分为缺失部分提供合理的填补值。
  简单均值插补是将目标缺失变量的观测部分的均值作为缺失值的插补,是最先能想到的单一插补方法。但简单均值插补的插补值完全集中于数据的中心位置,通过理论分析容易发现其显著低估了总体方差。一个解决方法是在其基础上加上随机误差项,这就是随机均值插补。进一步本文还做了一个模拟研究,那就是模拟产生变量正相关的农业经济调查缺失数据进行均值插补,最后发现其相关系数矩阵和协方差矩阵中的值明显小于真实相关系数矩阵和协方差矩阵的值。但无论是简单均值插补还是随机均值插补在数据非完全随机(MCAR)的情况下,估计都是有偏的。分层均值插补可以修正这个问题,分层均值插补是指将目标缺失变量按照辅助信息分层,然后再各层中进行均值插补,这样其估计是无偏的。
  分层均值插补虽然解决了一般均值插补的估计有偏问题,但插补值仍过于集中,回归插补可以解决这个问题。简单回归插补是指根据农业经济调查缺失数据的后验分布,利用数据的观测部分产生缺失部分的回归预测值,通过理论分析发现其对总体方差的估计仍偏小,可以加上随机残差项,这就是随机回归插补。将回归插补和均值插补对比模拟研究显示,回归插补是一个比均值插补更好的方法,尤其是随机回归插补有很好的插补效果,而简单均值插补是最不被推荐的。
  如果农业经济调查缺失数据没有明显的后验分布,热平台插补方法会是更好的选择。热平台方法直接从数据的完整部分产生缺失部分的插补值,其插补值一般比较稳健,不用担心像回归插补一样产生异常的插补值。一个简单的热平台插补是从完整观测数据中简单随机抽样产生插补值,这就是简单随机插补。如果数据是随机缺失(MAR)的一个更好的方法是利用辅助信息将目标缺失变量分层,然后在各层的完整观测数据中随机产生该层的插补值,这就是分层随机插补。热平台插补还有一个很有效率的方法,就是利用辅助变量,找到缺失值最接近的观测值作为自己的插补值,这就是最近距离方法。本文的一个针对热平台插补和均值插补、回归插补进行对比的模拟分析发现,在完全随机缺失(MCAR)下,基于热平台的随机插补效果显著好于均值插补,但可能比回归插补略差。
  根据单一插补后的数据进行估计检验时,其标准误差常常是被低估的,多重插补是解决这个问题的最有效的模型。多重插补的基本思想是,对同一缺失值产生多个插补值,这样就产生多个“完整”数据,然后对每一个“完整”数据估计检验,最后将其汇总成一个总的估计检验结果。
  基于单一缺失的一元正态模型仍然利用回归插补产生插补值,但其从两个角度让缺失值的不同插补值差异加大,一是跟回归插补一样在插补值中加入残差项,二是让每一次插补的回归模型参数随机产生。回归模型参数的随机产生方法有两个,一是根据回归模型参数的后验分布随机产生模型参数,这就是贝叶斯方法;二是用数据的Bootstrap样本来产生模型参数,这就是Bootstrap方法。本文首先研究分析了这两个方法的假设和理论,然后为了比较这两个方法的应用效果,在完全随机缺失的假设下模拟产生缺失数据,然后分别用贝叶斯法和Bootstrap法进行插补,并跟单一插补进行比较,结果发现无论是贝叶斯法还是Bootstrap方法,都有很好的估计检验效果,其估计的准确性显著超过单一插补。
  多元正态模型是基于一般缺失模式的农业经济调查缺失数据的插补。多元正态模型,由于其缺失模式的复杂性,为缺失值的插补提出了更大的挑战。本文研究了其中最为广泛应用的联合分布方法以及条件分布方法的假设和理论。更进一步本文模拟了一个多变量随机缺失的农业经济调查数据,然后运用这两个方法进行插补,结果显示两者都有很好的估计检验效果,而且两者之间差异并不大,都是很好的方法。
  在理论和模拟分析的基础上,本文对一个实际农业经济调查缺失数据进行了应用分析并取得较好的效果。通过实际应用分析可以得到一个基本的结论,那就是如果数据基本符合缺失值处理模型的假设,多重插补优于单一插补,而单一插补又优于删除;如果不符合假设,比如出现极端值,那么基于明确后验分布的缺失值插补效果会大打折扣,而此时基于热平台的插补方法会得到更稳健的结果。
  基于本研究,为农业经济管理研究人员在缺失值处理前和缺失值处理中两个阶段分别给出了一定的具体建议。在缺失值处理前建议:调查前通过良好的问卷设计减少缺失值产生;调查中与通过农户良好的沟通减少缺失值产生;及时处理无意义值,以免跟缺失值混淆;不要用不科学的方法消除缺失值。在缺失值处理中建议:正视缺失值问题;尽量不要删除缺失值;善于利用分类变量处理缺失值;插补缺失值前对缺失数据进行描述考察;单一插补时选择回归插补;在数据一般缺失时使用多重插补。
  本研究可能的创新有:
  (1)本文率先关注了农业经济调查数据的缺失值处理问题,并基本厘清其学理。虽然在农业经济调查中缺失值无可避免,但绝大部分农业经济管理研究人员都将其忽略,更鲜有人对其系统研究,使得该领域的研究特别是国内研究基本空白,这也是作者开启这项研究的重要原因。
  (2)本文专门针对中国农业经济调查的特点模拟缺失数据进行分析,具有一定创新性和开创性。本文针对中国农业经济调查数据的缺失值处理,提出了一整套具体而又可行的模型和方法体系,为了分析这些方法的可行性和使用条件,并对不同模型和方法的效果进行比较,采用了理论分析和模拟分析。而其中的很多模拟分析针对中国农业经济调查特点、缺失模式、缺失机制进行了专门的设计。
  (3)本文为农业经济调查数据中缺失值实际处理和应用自编了一套具体的基于R软件的程序代码,并用于实际案例应用分析,效果较好。该语言程序包括农业经济调查缺失数据的预分析、缺失值的处理和处理结果的定量分析。实际案例的处理结果显示,对于基本达到假设条件的农业经济调查缺失数据,本套语言程序能达到较好的缺失值处理效果。
[硕士论文] 程誉莹
统计学 山西大学 2017(学位年度)
摘要:随着大数据时代的到来,数据的缺失时许多实验和调查研究中普遍存在的问题.有许多原因会导致数据的缺失,例如调查过程中的无响应和数据收集过程中的失误等.数据的缺失会影响统计数据的质量,增加数据分析过程的复杂性,导致结果出现误差,从而降低统计工作的效率.
  成分数据是一类被广泛应用于地质学,社会结构和经济发展等方面的多维复杂数据,主要研究构成某个整体的各部分之间的比例.由于成分数据被其特殊的几何性质即“正则性”和“定和性”所限制,传统的缺失值填补方法不能直接应用于这类型的数据,因此本文提出了基于修正核函数和随机森林模型的两种处理成分数据中含有缺失值的方法,并利用相应的模拟实验和实例分析验证新方法的有效性.
  第一章介绍本文的选题背景以及数据缺失处理方法的国内外现状;
  第二章给出了成分数据的定义及其运算,对现有的成分数据缺失值填补法进行回顾;
  第三章针对单形空间中参数的难以估计问题,提出了基于两种修正核函数的成分数据缺失值填补法并通过实例分析和模拟实验验证该方法的准确性;
  第四章针对高维数据提出了基于随机森林的成分数据缺失值填补法,通过实例分析和模拟实验验证该方法的准确性;
  第五章总结概况本文的研究工作和结果,提出不足之处和待以解决的问题.
[硕士论文] 田莹
统计学 山西大学 2017(学位年度)
摘要:在实际生活众多领域中,经常会收集到大量的缺失数据;尤其是在经济等相关领域中,随着计算机技术的不断发展可获数据的维数越来越高,人们需要处理的数据都是大量的高维数据.维数的增加就会伴随着数据的缺失,那么传统的统计分析方法就不再适合.于是,如何在数据缺失且维数较高的情况下,进行更为有效地统计推断也引起了很多统计学者的关注.
  成分数据主要用来研究的是构成某个整体的各部分之间的比重,一般解决成分数据的方法是将单形空间上的成分数据转换为欧氏空间上的普通数据,再进一步对普通数据进行统计分析.当成分数据在变换过程中,由于一些主客观等原因会导致成分数据中含有大量的缺失值.如何对成分数据中的缺失数据进行插补,得到完整的数据集是成分数据统计分析研究的首要任务.本文引入一个新的插补方法来处理高维成分数据,并对新的方法进行模拟和实证分析,再与MEAN插补法、knn插补法、ILSR插补法和ILTSR插补法进行比较研究.
  本文主要研究的是如何处理缺失数据并进行变量选择,包括以下几个工作:
  (1)了解数据缺失机制和缺失模式;
  (2)研究处理缺失数据的常用插补方法;
  (3)提出基于LASSO方法的缺失数据的处理方法;
  (4)通过模拟研究和实例分析对各种方法的插补效果进行比较分析,分析各方法的优劣和适用范围;
  (5)归纳总结缺失数据的插补效果的优劣.
[硕士论文] 唐媛媛
统计学 扬州大学 2017(学位年度)
摘要:Gamma分布常用于概率统计模型,它在水文学和气象学、可靠性和生存分析等领域都有广泛的应用。因此,对Gamma分布特别是Gamma分布的参数估计展开研究有着重要意义。本文对现有的Gamma分布的性质和参数估计方法进行总结,并且提出一种新的参数估计方法——参数分离法,最后用MATLAB进行数值模拟,计算三种估计的估计值和均方误差,并在均方误差的准则下,比较这三种估计方法的优劣。
  对于回归,一直以来研究最多的是多元线性回归模型,但在许多实际问题中,响应变量及其期望并不都满足其假定条件,因此常常应用其直接推广的模型,即广义线性模型。其中Gamma回归模型以及Gamma分布好其它指数族分布的混合模型有着广泛的应用,因此本文对Gamma回归展开深入的研究。本文介绍了Gamma回归模型的定义及参数估计,并用两种不同的方法对估计值进行求解,同时证明两种方法的等价性,最后通过具体实例进行分析。
  当对一组观测值进行回归建模时,数据集中可能存在异常点或者强影响点,可能导致建立的回归模型与实际不相吻合,或者得到错误的结论,因此识别数据集中的异常点或强影响点是数据分析的一个重要任务。统计诊断是数据分析的重要组成部分,其主要任务就是检测得到的观测数据是否满足给定的假设条件和既定模型(postulated model),并通过计算和比较诊断统计量的值,找出不满足条件的数据点,即异常点或强影响点。本文介绍了最基本的统计诊断模型——数据删除模型(Case-Deletion Model,并简记为CDM)。本文首先给出Gamma回归模型的数据删除模型的定义,并对数据删除模型的回归系数进行估计,求解出回归系数的一阶近似公式;其次介绍几种统计诊断量,如拟合偏差、Cook距离和似然函数等,并给出这几种诊断统计量的计算公式或一阶近似公式;最后用具体实例进行分析,计算各种诊断统计量的值,并通过比较,找出异常点或者强影响点。
[硕士论文] 惠月月
统计学 山西大学 2017(学位年度)
摘要:双标图是一种广泛应用的可视化分析方法,但是当所研究的数据包含较多变量时,如果直接用双标图进行分析会导致图中较多变量重叠,不能很清晰地观察变量间的相关关系,可视化程度较低,分析效果不精确,因此寻找一些能够有效解决一般的多变量数据的统计方法就非常必要.针对上述问题,本文提出了两种增强双标图的可视化的分析方法,第一种是基于聚类分析的双标图分析方法,首先通过对原始数据进行聚类分析,得到新的数据集,然后对得到的新数据集进行双标图分析.另一种方法是基于主成分和聚类分析提出一种新的双标图分析方法.此两种方法不仅保留了数据间的绝大多数信息,而且使得双标图的可视化程度增强.对两种新的双标图方法进行实证分析,并与原始数据构成的双标图进行比较研究,验证了该方法的有效性,最后将两种新的双标图方法推广应用到成分数据上.
  第一章是引言,主要介绍了本文的研究背景,问题的提出及其实际意义,简要说明本文的工作及创新之处,并给出了本文的主要结构.
  第二章是双标图的简介,对双标图的一般模型进行了描述,简单介绍了双标图的基础理论知识,并简单介绍了三种类型的双标图.
  第三章简绍了两种增强双标图可视化的方法.针对多变量数据集,如果直接用双标图进行分析会导致图中较多变量重叠,不能很清晰地观察变量间的相关关系,可视化程度较低,分析效果不精确,故本章提出了两种增强双标图的可视化的分析方法.第一种是基于聚类分析的双标图分析方法,首先对原始数据集进行分类,得到一些新的数据集,然后利用双标图对新的数据集进行分析,分析每类中原始变量与均值变量之间的关系.对新的双标图分析方法进行实例分析,并与原始数据构成的双标图进行比较研究,验证了该方法的有效性.第二种是基于聚类分析和主成分分析的双标图分析方法,首先基于主成分分析和聚类分析,对原始数据集进行分类,得到新的数据集,对新的数据集进行双标图方法进行了实例验证,验证了该方法的有效性.以上两种方法不仅保留了数据间的绝大多数信息,而且使得双标图的可视化程度增强.
  第四章介绍了成分数据双标图的构造步骤及其成分数据的基本理论,将第三章提出的两种方法应用到成分数据中进行实例验证.
  第五章是结论部分.本文对两种增强双标图可视化分析方法进行了总结,发现在多变量数据集条件下,直接利用传统的双标图分析方法存在一些弊端,即可视化可能会降低,而本文提出的这两种增强双标图可视化的分析方法很好的解决了双标图可视化低的问题.本文的目的是希望找到一种既不丢失数据,又能很好的分析多变量数据集的双标图分析方法,使得可视化增强.
[硕士论文] 张苗苗
统计学 山东科技大学 2017(学位年度)
摘要:近年来,在网络经济学、环境科学、互联网技术等许多领域都产生了数据的大规模增长现象,社会正式进入大数据时代。大数据作为一种信息资本和数据资源将对国家治理、政府决策等方面产生巨大影响。这也使得许多传统的数据处理及分析算法不能满足数据急速增长的需求。文中主要对大数据背景下政府统计方法进行分析研究,具体工作安排如下。
  第一章论述了本文的研究背景、意义和国内外文献综述,提出了本文的研究问题。
  第二章介绍Bootstrap算法与Bootstrap的改进算法Bag of Little Bootstrap(简称BLB算法),给出算法的具体思想和计算过程,指出BLB算法在数据量庞大的情况下具有较高的可行性。
  第三章针对传统的核算方法在权数上更新速度较慢以及大数据背景下数据量庞大的问题,从核算流程及权数等方面对CPI核算方法进行了改进,提出了基于Bootstrap的抽样方法,从而扩大了数据的样本量,降低了价格采集点的采集频率,在节省数据采集成本的同时,也提高了预测精度;参考统计网络价格消费指数的方法,对CPI核算中的权数做了改进,提高了权数更新的频率。
  第四章构建了基于Bootstrap和BLB抽样方法的回归预测模型,并给出了相应算法。所给模型较好地体现了Bootstrap和BLB抽样方法在统计数据处理和推断中的优点。特别是,基于BLB抽样方法的回归预测方法能够在数据量较大的情况下实现分块并行运算,从而使得该模型能够更好地适合大数据回归分析。
  第五章对第四章所提到的回归预测模型做了实证分析,通过实验验证了Bootstrap回归算法相对于传统的多元线性回归模型具有更高的预测精确度;将BLB回归模型应用到 CPI的预测中,进一步验证了 BLB回归模型相较于Bootstrap回归模型具有更高的精确度。
  第六章对论文的主要内容做了总结,并就CPI核算和回归预测方面提出了进一步研究的问题。
[硕士论文] 刘志平
统计学 南昌大学 2017(学位年度)
摘要:目前关于综合评价方法的研究已经取得丰硕成果,然而由于分析视角的多样性,方法原理的差异性,人为判断的主观性等,各种不同的方法所得出的结论往往不相同。为了解决评价结论不一致问题,组合评价方法成为了学者们关注的焦点。基于此,首先对已有的关于组合评价方法的研究进行细致梳理,为开发新的组合评价方法奠定基础。然后,针对组合评价方法的特殊性以及评价数据为二维且分布不均的情况,提出了一种专门用于解决组合评价问题的信息集结方法,即组合(CW)算子。该方法能同时考虑单一方法的同质性特征和异质性特征,并在系统聚类分组的基础上进行二次加权,有利于得出更加稳健的评价结论。其次,为了进一步验证该方法在实践中的有效性,将其应用于2015年16家上市商业银行的绩效评价,将简单线性加权法、灰色关联法、熵值法、理想点法、改进理想点法、模糊综合评价法和主成分分析法这7种方法进行组合得出相应结论。最后,分别从评价方法个数和被评价对象个数两个视角进行测度,对基于CW算子的组合评价方法进行稳定性分析。并与平均值法进行对比分析,结果表明基于CW算子的组合评价方法比平均值法更具稳定性。
[硕士论文] 赵芳芳
统计学 湖南大学 2017(学位年度)
摘要:综合评价已被普遍应用于经济生产、社会管理等众多领域。在国内外学者对综合评价问题研究日益深入的同时,关于其理论与方法的探讨已经从截面数据或时序数据扩展到面板数据,使得面板数据的综合评价问题成为日后统计评价领域研究的重要内容。在综合评价过程中极为关键的步骤是确定权重,其对于最终综合评价的结果有着至关重要的影响。由于基于面板数据的评价对象在不同时点上研究对象具有不同的性质,不但需要对指标进行赋权,而且要对不同时间的评价值进行赋权。研究面板数据综合评价模型中的赋权方法,对于提高综合评价的科学性,进而提高评价效果,具有重要的理论与现实意义。
  本文针对研究的面板数据综合评价赋权问题,按照以下思路进行开展:首先借鉴前人的研究成果,对赋权问题的研究现状进行归纳,构架写作框架;对权重相关的理论及常见赋权方法进行了梳理,为后续研究夯实理论基础;继而根据面板数据的特点,分别研究指标权重、时间权重的确定方法。本文在指标权重方面,构建了基于三种常见的赋权方法—熵值法、相关系数法和变异系数法集结而成的组合赋权方法,其组合方法是基于三种权重赋权方法离差平方和最小的思想,以相应指标权重平方差最小为适度函数,利用遗传算法搜索求解的指标权重;在时间权重方面,构建基于时间信息量的时间权重赋权方法,引入模拟退火算法求解时间权向量的非线性规划问题,求得时间权向量。最后利用上述赋权方法对2010-2015年16家商业银行营业绩效进行基于灰色关联度模型的实证分析。实证结果表明,本文所采用的组合赋权方法相较于三种单一赋权方法的离散程度更低,表明该方法比其他赋权方法具有更高的优良性。同时实证结果表明,基于2015年截面数据的评价结果与基于面板数据的评价结果是有差异的,但是整体上的比较接近,而面板数据的综合评价结果相对于截面数据的能够动态、更为客观真实的反映商业银行的经营情况。
[硕士论文] 高玉鹏
应用统计学 河北经贸大学 2017(学位年度)
摘要:自2012年以来,“大数据”一词越来越多地出现在人们的生活、工作和学习中。IBM公司曾进行过一项研究,研究结果显示从古至今我们人类世界的全部数据中有90%都产生于过去的两年,并且预计2020年后全人类范畴的数据量可能会达到目前数据量的44倍。在大量数据产生及扩展的过程中不完备数据的出现是不可避免的,而不完备数据中的缺失值又往往会对数据的可利用性产生重大的影响。
  网络购物平台的评价系统在收集大量不完备数据上起到了很大的作用。假如所有消费者均对自己所购买到的商品进行了评价,该网络购物平台的评分系统就能够将所有评分数据收集成一个含有大量缺失值的矩阵,我们称之为“稀疏矩阵”。如果一些消费者购买了商品,却没有对商品进行评价,则会提高该稀疏矩阵的缺失率。本文根据网络购物平台评分系统和美国Netflix在线影片租赁公司影片评价系统得到的数据结构为依据,联系当前随着大数据不断发展而扩增的实践调查数据,不难发现,以往简单的小型抽样调查已经不能满足当今社会对实践调查的要求,因此无论在问卷大小还是在样本量多少上,都需要有新的突破。
  针对含有大量问题的问卷调查,以往的做法通常是给予被调查者一定的奖励或回馈以获得被调查者的配合,该方法不但在人力、物力及财力上需要一定的保障,而且并不能保证问卷数据的质量。本文运用问卷分割法将调查中的大型问卷按照题量及问题之间的关联性分割为多个小型问卷,在调查过程中每个被调查者从中随机抽取特定数量的小型问卷进行作答,在保证样本量的前提下,收集并整理调查数据,最终会得到一个含有大量缺失值的稀疏矩阵。进而运用缺失值插补的方式对稀疏矩阵进行插补,以获到完整的研究数据。本文通过对一般数据插补方法、稀疏矩阵数据插补方法和大型问卷缺失数据插补方法的对照,采取随机数插补和多项逻辑模型插补两种插补方式,通过对插补成效的对照分析,得出相应的结论。
  由于人力及时间的限制,本文数据来自于R-Studio软件的模拟。首先,运用R-Studio软件生成模拟数据,由于每位被调查者回答的数据均以“单元”为单位,因此在进行数据缺失的过程中要实现成块缺失,即单元缺失,最终的稀疏矩阵中每个被调查者都回答了特定单元数的问题;其次,利用不同被调查者共同回答的问题作为铆题,计算不同被调查者在回答同一问题时的关联性,进而利用该关联性对其他未回答数据进行插补;最后,利用插补所得的数据与原始数据进行对比,验证问卷分割法及本文所用插补方式的可行性和准确性。
  由于本文数据采用R-Studio软件模拟生成,因此在理论上具有一定的理想化假设,虽然每个被调查者回答问卷的单元数可以在调查过程中进行人为的控制,但被调查者回答每个单元的问题数据需假设为内部无缺失,即整个数据矩阵只有“单元”缺失,没有个别缺失。
  全文包括五章的内容。第一章,介绍了文章的根本内容,包括选题背景和研究目的、文献综述、研究方法及论文创新之处;第二章,是缺失数据的处理方法简介,阐述了近年来学者们研究缺失数据插补时所用到的方法及其简单概念;第三章,作为本文的核心内容,从易到难、从数据的生成到缺失,再到插补,具体介绍了大型问卷分割法及缺失数据插补方法,并将完成插补的数据与原始数据进行比较;第四章,运用第三章研究的内容及R-Studio软件生成的大型稀疏矩阵进行进一步的分析,验证本文理论和方法的可行性和准确性;第五章,是对全文的总结以及对本文所研究内容发展前景的展望,同时,对本文的不足之处提出了改进方法。
[硕士论文] 姜天英
统计学 山西财经大学 2017(学位年度)
摘要:进入2010年大数据元年来,“大数据”迅速抢占学术研究各领域的制高点。自2015年,政府将“大数据”纳入国家发展的战略高度,与“大数据”相关的发展政策得到不断的施行,由此开创了“十三五”数据中国的建设新局面。在此背景下,作为以数据为研究核心的统计学科在新的发展浪潮中蓄势待发,正经历“大数据+统计”的新变革。变革的目的并不仅仅局限于数据来源的改变,更重要的是与数据相匹配的分析技术的创新。在统计学科中,指数作为重要组成部分,正乘着政策之助力凸显指数在社会、经济发展中的显著优势,实现自身的变革,以使得其本身能够在大数据时代下历久弥新,形成独有的“大数据+指数”的发展体系。
  本文则是以“大数据指数”为研究对象,研究其在“大数据+统计”变革下的自身新突破。本文的研究目的是在传统统计调查指数的基础上,对大数据指数完整分析体系进行构建;并在研究目的的基础上阐述了本文的研究内容:首先是大数据指数的内涵式界定,是从大数据指数的本质出发,包括大数据指数的定义、性质及作用等,以及大数据指数的评价、完善以及应用范围等;然后是对大数据指数的编制原则进行理论性总结,对于编制原则,参照传统统计调查指数的编制原则,将其总结为六步骤:原始数据收集、指标体系构建、数据预处理、基期、权重选择和更新、计算方法和指数调整等;最后对大数据指数的应用进行了研究探讨,主要先从两个角度出发,一是对现有的大数据指数的深度剖析,并将其与传统统计调查指数的编制原则进行了对比,更进一步的尝试性的用大数据指数对传统统计调查指数进行了实证估计;二是对传统统计调查指数的改进性编制,选取了具有代表性的太原煤炭交易价格指数,在其基础上引入了新兴大数据指数,对其进行了大数据性质的改进,以期符合大数据时代对指数发展的新要求。
  通过对以上内容的研究,本文从大数据指数的本质、编制原则和应用对大数据指数编制进行了总结。在本质上,明确了大数据指数的定义、性质、作用等;而后对大数据指数的编制原则进行了详细总结;最后在应用上,对大数据指数与传统统计调查指数间的关系进行了分析。在当前形势下,应寻求统计部门获取数据方式的改变,寻求多方合作,促进社会总体数据整合,有效的探索大数据指数与传统统计调查指数的有益结合,从而提高整体社会运行效率。
  (已选择0条) 清除
公   告

北京万方数据股份有限公司在天猫、京东开具唯一官方授权的直营店铺:

1、天猫--万方数据教育专营店

2、京东--万方数据官方旗舰店

敬请广大用户关注、支持!查看详情

手机版

万方数据知识服务平台 扫码关注微信公众号

万方选题

学术圈
实名学术社交
订阅
收藏
快速查看收藏过的文献
客服
服务
回到
顶部