绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友
导航
万方知识发现服务平台
排序:
范围:
统计学 扬州大学 2017(学位年度)
摘要:Gamma分布常用于概率统计模型,它在水文学和气象学、可靠性和生存分析等领域都有广泛的应用。因此,对Gamma分布特别是Gamma分布的参数估计展开研究有着重要意义。本文对现有的Gamma分布的性质和参数估计方法进行总结,并且提出一种新的参数估计方法——参数分离法,最后用MATLAB进行数值模拟,计算三种估计的估计值和均方误差,并在均方误差的准则下,比较这三种估计方法的优劣。
  对于回归,一直以来研究最多的是多元线性回归模型,但在许多实际问题中,响应变量及其期望并不都满足其假定条件,因此常常应用其直接推广的模型,即广义线性模型。其中Gamma回归模型以及Gamma分布好其它指数族分布的混合模型有着广泛的应用,因此本文对Gamma回归展开深入的研究。本文介绍了Gamma回归模型的定义及参数估计,并用两种不同的方法对估计值进行求解,同时证明两种方法的等价性,最后通过具体实例进行分析。
  当对一组观测值进行回归建模时,数据集中可能存在异常点或者强影响点,可能导致建立的回归模型与实际不相吻合,或者得到错误的结论,因此识别数据集中的异常点或强影响点是数据分析的一个重要任务。统计诊断是数据分析的重要组成部分,其主要任务就是检测得到的观测数据是否满足给定的假设条件和既定模型(postulated model),并通过计算和比较诊断统计量的值,找出不满足条件的数据点,即异常点或强影响点。本文介绍了最基本的统计诊断模型——数据删除模型(Case-Deletion Model,并简记为CDM)。本文首先给出Gamma回归模型的数据删除模型的定义,并对数据删除模型的回归系数进行估计,求解出回归系数的一阶近似公式;其次介绍几种统计诊断量,如拟合偏差、Cook距离和似然函数等,并给出这几种诊断统计量的计算公式或一阶近似公式;最后用具体实例进行分析,计算各种诊断统计量的值,并通过比较,找出异常点或者强影响点。
统计学 江西财经大学 2017(学位年度)
摘要:统计数据显示,江西省全省共有4500多万人口,其中农村人口有2200多万,总共占全省人口的49%。江西省共有70个县(市),其中国家级贫困县有21个,人口多达1200多万,占全省人口的近27%。江西省有4个县享有国家级贫困县帮扶政策,在扶贫的道路上任重而道远。逐步缓解并消除农村贫困是省政府面临的重大挑战,政府在制定相关政策时主要围绕如何消除农村贫困问题展开。消除农村贫困的前提是要精准识别江西省农村的贫困现状。本文构建了一套具有科学性、可比性且适用于江西省的贫困线计算方法,该方法较好地测算出了江西省农村贫困的广度指数、深度指数与强度指数。通过以上的贫困测度方法,分析出了江西省农村居民贫困的原因,为农村反贫困政策的制订提供科学依据。
  贫困线是识别和分析贫困的起点,目前,贫困线的测度方法主要有市场菜篮子法、恩格尔系数法、马丁法、国际贫困标准法和扩展线性支出系统法等。本文基于江西省农村贫困的背景并且结合了相关学者在贫困方向的研究,探讨了贫困的内涵、分类以及测算的方法。运用最低营养法结合江西省农产品的价格和农村居民的消费结构对江西省农村食物贫困线进行了调整,根据CFPS数据通过马丁法来测算出贫困线、计算居民的贫困指数来反映出江西省农村贫困的具体情况。对比全国标准和国际标准测算出来的贫困指数,发现在全国统一贫困标准下测算出的贫困指数普遍偏低,贫困人口数量是江西省标准下测算出人口的四分之一左右,贫困缺口率和平方贫困距的数值都很小,会低估江西省贫困现状。而使用国际统一的一天1.5美元的标准前期对江西省贫困人口的识别相差不大,但是随着后期生活水平的提高,此标准也逐渐不能用于精确的识别贫困人口。对比这三条贫困线,使用马丁法测算出的标准线是基于江西省的实际情况,更具有实践意义。而如果一直使用全国统一的标准会极大的低估江西省农村贫困人口、贫困深度和贫困广度,非常不符合江西省的实际情况,不利于政府进行扶贫工作的开展。
  贫困测度的目的有助于识别贫困、监控贫困、获取贫困特征,进而引起公众的注意,并为反贫困政策的制订提供理论依据。故依照地区的消费结构和物价水平来构建合适的贫困线十分重要,本文的研究有助于社会各阶层认识和理解江西省农村的贫困人口,为构建和谐社会的可持续发展提供相关理论依据。
农业经济管理 华中农业大学 2017(学位年度)
摘要:中国是农业大国,虽然农业产值占GDP的比重不到10%,但农业就业人口仍占到了总就业人口的28.3%,农业仍旧是国民经济和社会发展的基础。在科学研究中,农业经济以及农业管理的研究仍是必要和重要的,而这些农业经济管理研究很多都需要开展农业经济调查以获取数据,然后在数据分析的基础上得到结论。
  跟任何调查一样,农业经济调查会遇到一个几乎无可避免的问题:缺失值,农户的无回答或者调查人员的疏忽都会让农业经济调查数据产生缺失值。但跟其它调查,如市场调查、民意调查不同的是,农业经济调查有很强的特殊性,比如农业经济调查仍使用古老的人员访问方法、调查问卷中存在大量的开放性问题、能获得较多辅助信息、随机性不高但农户调查配合度较高等等。
  结合农业经济调查的特点和数据缺失的原因,提出本研究特定的假设条件:调查数据来自一个正态总体;调查数据是随机获得的;变量类型以数量变量为主;数据的缺失模式是单一缺失和一般缺失;数据的缺失机制是完全随机缺失(MCAR)和随机缺失(MAR)。基于这些基本假设,本研究提出了农业经济调查数据的缺失值处理构建一套较系统的模型和方法。这套模型其实是一个完整的逻辑体系,但为了叙述方便分成三部分:删除模型、单一插补模型和多重插补模型,每一个模型又包括很多具体的方法。
  本研究的基本逻辑是,根据假设和条件提出一个模型,在这个模型中提出基本方法,利用理论分析和模拟分析其缺陷,然后改进提出新的方法;如果假设和条件改变,又使用新的模型,为新的模型寻求方法并分析改进。
  删除是缺失值处理的最基础模型。大部分农业经济调查人员都采取该模型将缺失值当作无效数据删除,大部分的数据分析软件也默认删除缺失值。删除一般是指成列删除,也就是删除所有含缺失值的个案,留下完整数据。当数据的缺失比重很低时,删除缺失值倒也无所谓,但是当数据缺失比重较大或者变量很多时,就会导致大量个案被删除。本文用不同的缺失比例模拟随机产生农业经济调查缺失数据,分析发现当变量很少时,缺失比重略高一点删除比例也不会太高,但当变量稍微多一点,哪怕很小的缺失比重都致使大量的数据被删除。
  一个可供替代的删除方法是,如果我们不需要完整数据,只要使用可用的个案计算参数估计,这样就可以尽量减少数据删除,这就是成对删除。但成对删除会让估计量来自不同大小的样本,造成很多参数估计麻烦。此外本文的模拟分析发现,其实成对删除在对缺失农业经济调查的相关关系估计上并没有显著超过成列删除。
  当数据不是完全随机缺失(MCAR)时,无论是成列删除还是成对删除都会产生有偏的估计。可以利用辅助信息将目标缺失变量分层,根据各层的完整观测数据计算各层均值,然后再将各层均值以缺失概率作权数加权平均,这样就可以一定程度上弥补成列删除估计的有偏性,这就是加权调整的方法。本文通过模拟生成随机缺失(MAR)下的目标缺失变量和与之正相关的辅助变量,然后加权调整方法的获得的均值估计非常接近真值,而成列删除的均值估计明显偏小。
  用删除方法删掉的数据信息也许是有用的,再者对农业经济调查数据因为缺失值的存在而粗暴地删除,从心理上也是难以接受的,对数据的缺失值进行插补也许是一种更好的模型。插补分为单一插补和多重插补,前者指为缺失值提供单一插补值,后者是指对每一个缺失值,其插补值不止一个。插补的基本思想是根据数据的后验分布,用数据的观测部分为缺失部分提供合理的填补值。
  简单均值插补是将目标缺失变量的观测部分的均值作为缺失值的插补,是最先能想到的单一插补方法。但简单均值插补的插补值完全集中于数据的中心位置,通过理论分析容易发现其显著低估了总体方差。一个解决方法是在其基础上加上随机误差项,这就是随机均值插补。进一步本文还做了一个模拟研究,那就是模拟产生变量正相关的农业经济调查缺失数据进行均值插补,最后发现其相关系数矩阵和协方差矩阵中的值明显小于真实相关系数矩阵和协方差矩阵的值。但无论是简单均值插补还是随机均值插补在数据非完全随机(MCAR)的情况下,估计都是有偏的。分层均值插补可以修正这个问题,分层均值插补是指将目标缺失变量按照辅助信息分层,然后再各层中进行均值插补,这样其估计是无偏的。
  分层均值插补虽然解决了一般均值插补的估计有偏问题,但插补值仍过于集中,回归插补可以解决这个问题。简单回归插补是指根据农业经济调查缺失数据的后验分布,利用数据的观测部分产生缺失部分的回归预测值,通过理论分析发现其对总体方差的估计仍偏小,可以加上随机残差项,这就是随机回归插补。将回归插补和均值插补对比模拟研究显示,回归插补是一个比均值插补更好的方法,尤其是随机回归插补有很好的插补效果,而简单均值插补是最不被推荐的。
  如果农业经济调查缺失数据没有明显的后验分布,热平台插补方法会是更好的选择。热平台方法直接从数据的完整部分产生缺失部分的插补值,其插补值一般比较稳健,不用担心像回归插补一样产生异常的插补值。一个简单的热平台插补是从完整观测数据中简单随机抽样产生插补值,这就是简单随机插补。如果数据是随机缺失(MAR)的一个更好的方法是利用辅助信息将目标缺失变量分层,然后在各层的完整观测数据中随机产生该层的插补值,这就是分层随机插补。热平台插补还有一个很有效率的方法,就是利用辅助变量,找到缺失值最接近的观测值作为自己的插补值,这就是最近距离方法。本文的一个针对热平台插补和均值插补、回归插补进行对比的模拟分析发现,在完全随机缺失(MCAR)下,基于热平台的随机插补效果显著好于均值插补,但可能比回归插补略差。
  根据单一插补后的数据进行估计检验时,其标准误差常常是被低估的,多重插补是解决这个问题的最有效的模型。多重插补的基本思想是,对同一缺失值产生多个插补值,这样就产生多个“完整”数据,然后对每一个“完整”数据估计检验,最后将其汇总成一个总的估计检验结果。
  基于单一缺失的一元正态模型仍然利用回归插补产生插补值,但其从两个角度让缺失值的不同插补值差异加大,一是跟回归插补一样在插补值中加入残差项,二是让每一次插补的回归模型参数随机产生。回归模型参数的随机产生方法有两个,一是根据回归模型参数的后验分布随机产生模型参数,这就是贝叶斯方法;二是用数据的Bootstrap样本来产生模型参数,这就是Bootstrap方法。本文首先研究分析了这两个方法的假设和理论,然后为了比较这两个方法的应用效果,在完全随机缺失的假设下模拟产生缺失数据,然后分别用贝叶斯法和Bootstrap法进行插补,并跟单一插补进行比较,结果发现无论是贝叶斯法还是Bootstrap方法,都有很好的估计检验效果,其估计的准确性显著超过单一插补。
  多元正态模型是基于一般缺失模式的农业经济调查缺失数据的插补。多元正态模型,由于其缺失模式的复杂性,为缺失值的插补提出了更大的挑战。本文研究了其中最为广泛应用的联合分布方法以及条件分布方法的假设和理论。更进一步本文模拟了一个多变量随机缺失的农业经济调查数据,然后运用这两个方法进行插补,结果显示两者都有很好的估计检验效果,而且两者之间差异并不大,都是很好的方法。
  在理论和模拟分析的基础上,本文对一个实际农业经济调查缺失数据进行了应用分析并取得较好的效果。通过实际应用分析可以得到一个基本的结论,那就是如果数据基本符合缺失值处理模型的假设,多重插补优于单一插补,而单一插补又优于删除;如果不符合假设,比如出现极端值,那么基于明确后验分布的缺失值插补效果会大打折扣,而此时基于热平台的插补方法会得到更稳健的结果。
  基于本研究,为农业经济管理研究人员在缺失值处理前和缺失值处理中两个阶段分别给出了一定的具体建议。在缺失值处理前建议:调查前通过良好的问卷设计减少缺失值产生;调查中与通过农户良好的沟通减少缺失值产生;及时处理无意义值,以免跟缺失值混淆;不要用不科学的方法消除缺失值。在缺失值处理中建议:正视缺失值问题;尽量不要删除缺失值;善于利用分类变量处理缺失值;插补缺失值前对缺失数据进行描述考察;单一插补时选择回归插补;在数据一般缺失时使用多重插补。
  本研究可能的创新有:
  (1)本文率先关注了农业经济调查数据的缺失值处理问题,并基本厘清其学理。虽然在农业经济调查中缺失值无可避免,但绝大部分农业经济管理研究人员都将其忽略,更鲜有人对其系统研究,使得该领域的研究特别是国内研究基本空白,这也是作者开启这项研究的重要原因。
  (2)本文专门针对中国农业经济调查的特点模拟缺失数据进行分析,具有一定创新性和开创性。本文针对中国农业经济调查数据的缺失值处理,提出了一整套具体而又可行的模型和方法体系,为了分析这些方法的可行性和使用条件,并对不同模型和方法的效果进行比较,采用了理论分析和模拟分析。而其中的很多模拟分析针对中国农业经济调查特点、缺失模式、缺失机制进行了专门的设计。
  (3)本文为农业经济调查数据中缺失值实际处理和应用自编了一套具体的基于R软件的程序代码,并用于实际案例应用分析,效果较好。该语言程序包括农业经济调查缺失数据的预分析、缺失值的处理和处理结果的定量分析。实际案例的处理结果显示,对于基本达到假设条件的农业经济调查缺失数据,本套语言程序能达到较好的缺失值处理效果。
应用统计学 河北经贸大学 2017(学位年度)
摘要:自2012年以来,“大数据”一词越来越多地出现在人们的生活、工作和学习中。IBM公司曾进行过一项研究,研究结果显示从古至今我们人类世界的全部数据中有90%都产生于过去的两年,并且预计2020年后全人类范畴的数据量可能会达到目前数据量的44倍。在大量数据产生及扩展的过程中不完备数据的出现是不可避免的,而不完备数据中的缺失值又往往会对数据的可利用性产生重大的影响。
  网络购物平台的评价系统在收集大量不完备数据上起到了很大的作用。假如所有消费者均对自己所购买到的商品进行了评价,该网络购物平台的评分系统就能够将所有评分数据收集成一个含有大量缺失值的矩阵,我们称之为“稀疏矩阵”。如果一些消费者购买了商品,却没有对商品进行评价,则会提高该稀疏矩阵的缺失率。本文根据网络购物平台评分系统和美国Netflix在线影片租赁公司影片评价系统得到的数据结构为依据,联系当前随着大数据不断发展而扩增的实践调查数据,不难发现,以往简单的小型抽样调查已经不能满足当今社会对实践调查的要求,因此无论在问卷大小还是在样本量多少上,都需要有新的突破。
  针对含有大量问题的问卷调查,以往的做法通常是给予被调查者一定的奖励或回馈以获得被调查者的配合,该方法不但在人力、物力及财力上需要一定的保障,而且并不能保证问卷数据的质量。本文运用问卷分割法将调查中的大型问卷按照题量及问题之间的关联性分割为多个小型问卷,在调查过程中每个被调查者从中随机抽取特定数量的小型问卷进行作答,在保证样本量的前提下,收集并整理调查数据,最终会得到一个含有大量缺失值的稀疏矩阵。进而运用缺失值插补的方式对稀疏矩阵进行插补,以获到完整的研究数据。本文通过对一般数据插补方法、稀疏矩阵数据插补方法和大型问卷缺失数据插补方法的对照,采取随机数插补和多项逻辑模型插补两种插补方式,通过对插补成效的对照分析,得出相应的结论。
  由于人力及时间的限制,本文数据来自于R-Studio软件的模拟。首先,运用R-Studio软件生成模拟数据,由于每位被调查者回答的数据均以“单元”为单位,因此在进行数据缺失的过程中要实现成块缺失,即单元缺失,最终的稀疏矩阵中每个被调查者都回答了特定单元数的问题;其次,利用不同被调查者共同回答的问题作为铆题,计算不同被调查者在回答同一问题时的关联性,进而利用该关联性对其他未回答数据进行插补;最后,利用插补所得的数据与原始数据进行对比,验证问卷分割法及本文所用插补方式的可行性和准确性。
  由于本文数据采用R-Studio软件模拟生成,因此在理论上具有一定的理想化假设,虽然每个被调查者回答问卷的单元数可以在调查过程中进行人为的控制,但被调查者回答每个单元的问题数据需假设为内部无缺失,即整个数据矩阵只有“单元”缺失,没有个别缺失。
  全文包括五章的内容。第一章,介绍了文章的根本内容,包括选题背景和研究目的、文献综述、研究方法及论文创新之处;第二章,是缺失数据的处理方法简介,阐述了近年来学者们研究缺失数据插补时所用到的方法及其简单概念;第三章,作为本文的核心内容,从易到难、从数据的生成到缺失,再到插补,具体介绍了大型问卷分割法及缺失数据插补方法,并将完成插补的数据与原始数据进行比较;第四章,运用第三章研究的内容及R-Studio软件生成的大型稀疏矩阵进行进一步的分析,验证本文理论和方法的可行性和准确性;第五章,是对全文的总结以及对本文所研究内容发展前景的展望,同时,对本文的不足之处提出了改进方法。
统计学 华中师范大学 2017(学位年度)
摘要:本文主要研究了使用统计分析来突出几内亚某些政府部门的满意度和比较概念。以这种方式选择了两个部门,以便更好地开展调查。
  通过调查问卷的分发和数据收集过程来获得受访者的答案。文中的第3章和第5章中介绍了这些回答采用抽样回收。文中对两个类别(男性和女性)以及在中学的三个不同的科目之间的数据进行了比较研究。对国外264名几内亚人的人才流失进行统计调查。这项工作发现,在国家行政部门采取统计调查概念,对实现目标,获得回应者,维持保留和减少受访者的损失有重要意义。通过不同的统计分析方法,同时突出数据分析方法来解决两个重要领域的几个问题:通过学生在精确科学领域的成绩,开展两类学校之间,公立和私立学校之间的研究比较。文中还对调查客户对酒店业的满意度进行了分析。对4000学生在精确科学方面的成绩进行了比较研究。
  本文研究结果可以作为相关研究人员的入门介绍。本文将帮助教师,研究人员和几内亚当局,特别是在一些统计培训学校在更多程度上进行应用推广。
应用统计学 华中师范大学 2017(学位年度)
摘要:近年来,对研究对象的分类问题已经在多个研究领域得到了广泛的应用,分类的方法也得到了巨大的发展,如聚类分析、KNN算法、决策树、支持向量机等等。本文以研究实际通讯数据的社群分类问题出发,提出了一种PageRank算法和SimRank算法相结合的新的分类方法。在两个实际案例中得到实践,并将结果分别与真实情况和传统聚类方法结果进行了比较,整体效果和结果解释均较为理想。
  本文提出的方法适用于研究任意对象与对象之间的关系。先将问题转化为一个简单而直观的点边结构图模型,通过PageRank算法计算状态点在整个图中的“重要性”,通过SimRank算法测量对象之间结构上的相似性,根据它们与其他对象的关系,有效地进行分类。本文的基本思想是“两个对象是相似的,则与他们相关的对象应相似。”
  本文的研究可以视为无监督学习(无指导学习)的实践和探索。
统计学 浙江工商大学 2017(学位年度)
摘要:面板数据是指一部分个体(个人、家庭、企业或国家等)在一段时期内某个变量的观测值所构成的多维数据集合。面板数据包含了两个现象的观测值,即对于每一个个体有多个时间观测值。从横截面看,面板数据是由若干个体在某一时点构成的截面观测值。从个体看每个个体都是一个时间序列。时间序列数据和横截面数据是面板数据的特殊形式,它们仅仅是一维的。面板数据有时被认为是带有时间观测的横截面数据或者是混合的横截面时间序列数据。通过使用面板数据,经济学中的实证研究得到了极大的丰富。随着可用的面板数据的增加,面板数据的理论和应用在近年来变得更加流行。
  面板数据集分析具有优于纯截面数据或时间序列数据集的各种优点,面板数据能够获得从不同环境采样的不同单元的个体特征,其中持久的个体特征是它的异质性,其中大部分是不可观测的。面板数据为研究者提供了灵活的方法来模拟横截面单位的异质性和可能随时间变化的结构。
  研究的模型是半参数模型,半参数模型结合了非参数模型的灵活性和线性模型的简洁性。半参数模型在经济学、生物学和医学领域的研究中有着广泛的应用。本学位论文研究带固定效应面板数据半参数模型的经验似然问题,主要运用Owen(1988,1990)提出的经验似然方法,经验似然方法在构造未知参数的置信区间(区域)有着很多突出的优点,如经验似然区域的形状完全有样本决定,Bartlett纠偏性,区域保持性和变换不变性等。因此,经验似然方法受到了许多统计学家和经济学家的广泛关注,许多研究者把经验似然方法应用到各种统计模型和领域。对于高维线性模型,Tang和Leng(2010),Leng和Tang(2012)建议惩罚经验似然进行变量选择和参数估计,并显示惩罚经验似然具有oracle特征。具体内容如下:
  第一章是引言,首先阐述了本文的研究背景和研究意义,分别从模型,问题的角度论证选题的合理性和可行性。其次对有关半参数面板数据模型的研究现状进行了梳理和总结。最后介绍了本论文的研究内容,概括了本论文的研究方法,研究内容和主要创新点。
  第二章,研究带固定效应部分线性面板数据模型的参数估计,为了解决组内相关性,应用块经验似然方法,并构造了未知参数的置信域。证明了调整的经验对数似然比函数在真参数点时是渐近卡方分布的。并且利用块经验似然比率函数,参数的最大经验似然估计被定义和正太逼近被显示。同时,模拟研究表明经验似然方法优于正态逼近方法。并且利用CD4数据也能实际验证建议的方法更合适。
  第三章,考虑带固定效应面板数据部分线性误差变量模型的统计推断,专注于一些协变量为附加误差情况下,提出了一个修正的剖面最小二乘估计参数和非参数部分,参数部分的渐近正态性和非参数部分的收敛速度被建立。一致估计的误差方差也被估计。此外,介绍剖面似然比(PLR)检验并证明它在原假设条件下是一个渐进的卡方分布。进行模拟研究,证明了所提出的方法更优于不考虑误差变量情况下的估计。也用英国联邦的气候数据验证建议的方法更合适。
  第四章,对于带固定效应面板数据的高维部分线性误差变量模型,当误差方差为已知和未知情形下。在这一章,建议一个修正的回归参数和最大经验似然比率回归参数。同时,依据惩罚经验似然方法,这个模型的参数估计和变量选择被调查,这个建议的惩罚经验似然被证明具有神特征。同时,建议的惩罚经验似然比率统计在原假设下具有渐近卡方分布,其结果可以用来构造未知参数的置信域。模拟和实证结果用来评估经验似然方法的性能。
  第五章,考虑带固定效应面板数据的半变系数模型的经验似然,提出了在协变量是α-混合下情形下,未知参数的经验对数似然比统计量,证明了建议的对数似然比统计量是渐近卡方分布的,也获得参数的最大似然估计量和证明在合适条件是渐近正态的。由此,未知参数两个不同的渐近正确覆盖率的置信域被构造。模拟和实证结果用来评估经验似然方法的性能。
  第六章,研究带固定效应面板数据部分线性时变系数模型的经验似然,提出了在协变量是α-混合下情形下,未知参数的经验对数似然比统计量,证明了建议的对数似然比统计量是渐近标准卡方分布的,一个模拟表明对比正态逼近方法,建议的方法比正态逼近方法在概率覆盖率方面表现的更好。
  第七章,简单总结全文的研究工作和主要的创新点,并指出需要进一步完善和深入研究的问题。
应用统计学 浙江工商大学 2017(学位年度)
摘要:随着城市化进程的加快和社会经济快速发展,很多城市盲目发展和建设,城市资源利用效率低下,导致土地浪费现象突出、淡水和能源资源紧张、环境污染严重、生态系统严重退化、交通拥堵日益严重等城市危机险象频生。而城市承载力的大小严重关系到城市能否持续健康的发展,人们能否享受更高的生活质量。因此,人们迫切希望寻求一种切实有效的模型对城市承载力进行预测,进而对人们的生活和政府的规划进行有效的指导。
  由此本文将城市水资源、土地资源、交通和大气环境作为研究的重点对象,结合统计年鉴和水资源公报等发掘已有的城市数据,分别构建城市水资源承载力评价指标、土地资源承载力评价指标、交通承载力评价指标、大气环境承载力评价指标和综合承载力评价指标,以期为解决城市在快速发展的同时衍生出的诸多问题提供方向。此外,为了较全面展现我国中心城市目前的城市承载力发展状况,本文基于选取的评价指标,选择了京津冀、长三角、珠三角等重要区域及直辖市、省会城市和计划单列市共64个城市来研究其承载力现状。研究发现:2014年度,我国城市综合承载力普遍较差。具体来说,逾50%的城市水资源承载力处于预警甚至危机的状态;逾56%的城市的土地资源承载力处于危机状态;80%左右的城市交通承载力极其脆弱;空气质量达优的城市仅有一个,占1.56%。这一切都表明:我国城市的城市承载力已经受到了严重的挑战,人们的正常生活和社会的健康发展已经受到了严重的影响。
  本文针对这一现象,以基于有限数据的机器学习方法——支持向量机(Support Vector Machine,SVM),从四个方面的城市承载力历史数值角度出发对未来的相应的城市承载力数值进行预测。起初,分别对这四个承载力单列的时间序列数据进行相空间重构生成时序矩阵,扩大信息量,确定水资源、土地资源、交通和大气环境它们各自的承载力最优嵌入维度分别为4、5、2、6.然后运用支持向量回归模型对时序矩阵中的数据进行建模。鉴于模型结果会因为支持向量回归机参数的选择不同导致结果差异明显,本文依据核函数参数敏感度强于核函数敏感度的理论,采取以下两种方式选择参数来提高支持向量机回归预测模型效果:其一,直接使用支持向量机中默认参数;其二,采用粒子群优化算法(PSO)择优选取惩罚因子与核参数。模型效果对比结果显示PSO-SVM比一般SVM的预测结果更加精确,其实用性更好。
  之后使用PSO-SVM模型对杭州市未来五年的水资源、土地资源、交通承载力以及大气环境承载力进行预测。结果显示未来五年杭州市的综合承载能力呈现下降趋势,水资源和大气环境承载力处于较好的状态,一般将不会对杭州市的发展产生较坏的影响。而土地资源承载力和交通承载力则相对比较低下,最有可能对杭州市未来发展可能造成阻碍。
统计学 浙江工商大学 2017(学位年度)
摘要:相关性分析是研究数据之间关系的一种方法,是变量随机分析的一个重要课题,而相关性分析的结果能够为发掘数据背后的信息提供有力地支持。从应用角度来看,现在金融保险等领域的投资风控、信贷评估,网络及APP领域的信息推送等等均和相关性分析有着紧密联系。早先学者们对相关性进行了研究,提出了许多度量变量相关性的方法,但这些相关性研究主要关注变量之间相关程度的分析,而对于变量之间相关模式的识别与研究并不是很重视。现有的一些相关系数,如Pearson相关系数,能对变量间的相关关系进行度量但不能对变量的相关模式进行识别,另一些相关系数,如Kendall相关系数、Spearman相关系数等,虽然可以一定程度上反映变量之间的相关关系,但仅仅片面地刻画了变量之间的相关结构。
  数据时代的到来给变量之间的相关性研究带来了挑战。从理论上来看,多个变量之间的相关性关系非常复杂,对于高维的数据更是如此。随着研究的深入,有学者发现原有的一些研究假设并不成立,这些不恰当的假设可能会导致严重的后果。本文受许冰(2010)路径设计的启发,并借鉴近来的一些研究成果,通过构建路径模型体系,综合考察变量间的相关模式及相关性的度量,进而对变量进行路径相关性分析,为变量间的相关性分析提供一种新的方法。
  本文使用Li and Racine(2004)的非参数变量筛选方法,对有关变量进行了分类;基于变量筛选结果构建非参数路径模型体系,分析变量间的整体效应、直接效应和间接效应。发现:(1)不管是在基准模型还是路径模型中,非线性分量的占比大于线性分量的占比,线性分量的波动大于非线性分量的波动,且非线性变量在模型中占主导地位;(2)单路径变量中用电量的整体效应最大,双路径变量中用电量和已用授信额度的整体效应最大;(3)用基准模型的外推精度取代变量间的因果分析,对具体数据进行了模拟分析。
公共管理 郑州大学 2016(学位年度)
摘要:伴随着我国经济社会发展水平的提高与社会公众整体素质水平的提升,公民对社会公共管理的关注度不断升温,统计数据作为反映经济社会发展水平的重要指标,越来越多的受到政府组织、社会机构、公民群众的关注。但是,随着统计数据的重要性以及社会公众对统计数据关注度的日益提升,关于统计数据的一些负面消息也日益增多,一些机构组织、学者、社会公众对统计数据的质疑之声也不断增多。
  本文以具体统计调查专业为样本分析对象,结合自身工作经历,以郑州市居民收支统计调查为样本,根据工作中对记账户、调查员和辅调员的走访座谈资料,对郑州市居民收支统计调查的组织模式,样本抽样方法及抽样结果,数据收集方式进行介绍说明,结合座谈资料分析得出影响统计数据公信力的因素:一是统计调查对象因素;二是统计体系因素;三是统计宣传解读因素;四是统计法制环境因素;五是统计方案制度可行性因素。结合影响因素分析,提高统计数据公信力的方法有:一是加大统计工作宣传;二是加大对统计基层工作投入;三是完善统计法制环境;四是完善统计工作组织模式;五是完善统计方法制度;六是加快统计工作现代化。
  本论文的创新之处在于,运用具体的统计调查专业为样本分析对象,通过对具体专业的分析研究,从而分析影响统计数据公信力的因素和解决途径。但由于文献资料的查阅研究量有限,走访座谈对象的样本代表性还有欠缺,走访座谈资料的整理还不够系统,论文还存在不足之处。
公共管理 辽宁师范大学 2016(学位年度)
摘要:统计作为国家进行管理而制定一系列科学决策的一项至关重要的基础性工作,它跟生产、生活的方方面面紧密联系在一起,是衡量经济发展的重要指标,也是衡量社会管理水平高低的重要标准,因此统计数据质量的高低,直接对政府、企事业单位等决策主体的决策质量和决策效益产生重大影响。
  改革开放以来,我国经济体制初步实现了从计划经济体制向社会主义市场经济体制的转变。新体制既为统计改革提供了有利的机遇,也向统计工作提出了更高更新的要求。经过多年努力,统计改革已初见成效。但数据质量较差仍是困扰我国当前统计工作的一个重要问题,它严重影响了国家重要决策的科学性和宏观调控的有效性。在新常态下,如何采取有效措施提高统计数据质量已经成为各级统计局研究的重大课题。相比中央和省级政府,基层统计部门既要贯彻执行国家和省的统计方法制度,又担负着数据质量审核的重要职责,是政府统计数据质量管理的重要层次和关键环节。本文运用文献研究、经验启示、定性分析等方法,以大连市甘井子区统计局为例,从该统计局的数据质量管理现状入手进行分析,并对大连市甘井子区统计局概况及数据质量管理特点进行详细介绍,针对基层统计部门管理体制滞后、统计法制不健全、基层基础薄弱、统计制度不完善、统计执法难度大、缺乏对统计工作的高度重视等问题进行原因剖析。随后通过查阅相关资料,以西方发达国家在统计数据质量管理方面取得的成功经验为借鉴,结合大连市甘井子区统计局的现状和特点,有针对性的提出完善各级统计机关的管理制度、优化政府绩效考核评价体系、完善统一规范的统计法律制度、强化统计基层基础工作、强化统计执法力度、提高统计意识、提高统计质量的保障措施等建议,希望能够为提高基层统计数据质量管理水平尽微薄之力,切实提高政府统计部门的公信力。
公共管理 东南大学 2016(学位年度)
摘要:统计数据质量是统计工作的生命,准确的统计数据对实行科学决策和现代化管理,保障国民经济稳定、持续、健康发展至关重要。在经济转型升级的大背景下,统计单位数量越来越多,统计客体越来越多元化、多层化和差异化,统计任务越来越艰巨而繁重,统计工作的重要性突显,社会公众对政府统计也提出了更高的要求。因此,如何提高政府统计数据质量,已经成为地方政府亟待解决的头等大事。
  近年来,社会公众对于政府统计数据的关注度越来越高,同时伴随着越来越多的质疑声,这说明政府统计数据质量管理面临着新的挑战,也是一项亟待解决的课题。地方政府统计部门作为政府统计数据质量的第一道把关者,其重要性不言而喻,既要执行国家和省市的统计方法制度,又担负着把控基层统计数据质量的重责,所以对地方政府统计数据管理的研究具有重要的现实意义。
  本文以海安县为例从地方政府这个层面研究统计数据质量,一方面在统计从业者的角度分析探讨了海安县政府统计数据质量的现状、存在的问题及其成因;另一方面,通过学习国外先进的统计数据质量管理经验,结合海安的实际情况,探索加强海安县政府统计数据质量管理的新办法,以提高政府统计的公信力。
公共管理 东南大学 2016(学位年度)
摘要:我国政府统计部门作为国家的一个行政机关,具有其一定的行政权威性。而政府统计作为政府统计部门的主要活动,越来越多地影响着我国社会、经济的发展以及人们的生产和生活。但是近年来,随着我国经济的快速发展以及人们生活方式的不断变化,我国政府统计的可信度越来越低,公众对政府统计的质疑越来越大。2010年10月20日,李克强总理在上海世博会联合国馆举行的“世界统计日”全球性庆祝活动上强调统计工作要致力于提供真实可靠完整的统计信息,提高统计的公众认知度和信任度,更好地服务经济社会发展。怎么提高我国政府统计的可信度成为我国不可逃避的问题。
  当前我国学术界对政府统计生态系统方面问题的研究大都还处在一个摸索和探究的阶段,主要是从政府统计体制改革、中外政府体制比较、改进政府统计方法和政策等方面来研究我国政府统计可信度下降、数据质量受到质疑等问题,涉及的理论层次不深,尤其是对政府统计外部影响因素的研究十分匮乏,而且一般是从政策学、公共组织理论的角度进行分析。本文则主要运用公共物品理论、系统理论等方面的知识,首度引进用户因素,从系统分析的角度出发,来分析政府统计生态系统内外部因素、环境以及我国现行政府统计生态系统运行状态,以期从中找到我国现行政府统计生态系统存在的问题,从而进一步优化我国统计生态系统,为我国政府统计研究提供一个新的视角,弥补目前此研究领域的不足,同时也希望能够引起更多学者对此领域研究的关注,为提高我国政府统计的发展做出更多的努力。
  本文的创新之处是首次提出政府统计生态系统的概念,政府统计生态系统是指由政府统计机构、政府统计体系(统计人员、统计法律、统计经费、协调机构等)、政府统计用户构成的一个系统,该系统各要素既彼此独自又相互配合,整体的有机运行是为了达成政府统计的任务,它和传统的政府统计系统的区别在于加入了用户的因素。
公共管理 南昌大学 2016(学位年度)
摘要:尽管学术界有关统计数据质量的研究有了一定的理论基础,各级统计机构也在不断的改进自己的工作制度,但对统计理论界来说,如何使统计理论与统计实践相结合?如何在政府统计的过程中,避免主观上的偏差,提高政府统计数据的抗干扰性,避免统计数据的失真,保障政府统计数据质量,都是一个长期需要不断深化和研究的问题。
  从界定政府统计数据质量的涵义出发,分析了统计数据失真的原因:一是由于统计被调查者法律意识淡薄,企事业负责人个人素质不够高,统计基础设施相对薄弱,加上被调查单位统计人员更换频繁,很难做到专职专做,统计数据的持续性和真实性很难从源头上得到保障;二是地方政府的绩效考核机制和人事任免制度对统计数据的质量产生了比较大的干扰;三是具体统计工作流程中存在的客观上和主观上因素。在借鉴国外发展中国家和发达国家在保障统计数据质量上的经验,提出了对统计数据真实性保障机制完善的几条建议和对策:明确政府统计的独立性,完善统计管理体制;加强统计调查制度的设计,改进统计调查方法;提高统计队伍业务素质,培养综合统计人才;健全统计法律制度,提高统计执法检查的地位;改革现有的政绩观,建立科学合理的绩效考核机制和干部任用制度。
统计学 暨南大学 2016(学位年度)
摘要:为了在有限调查资源下满足日益增长的统计需求,将相互关联的住户调查项目进行整合,实施一体化设计,已成为各国住户调查体系改革的重要方向。
  在理论方面,本文首先按内容特征和内在逻辑关系将住户调查项目分为基本情况类调查、经济特征类调查和社会特征类调查,依据三者的内在逻辑确定调查的主辅关系,进而确定三类调查的调查方法、调查频率和调查方式等设计内容,为住户调查一体化设计奠定理论基础。其次,从内外部衔接两个方向对住户调查一体化设计进行系统研究:从外部衔接的角度对住户调查、人口普查和行政记录进行整体性设计,建立人口普查和行政记录与住户调查抽样框设计以及更新维护的衔接路径,为住户调查一体化设计确立了外部衔接理论基础。从内部衔接的角度,以满足全部住户调查项目需要的主样本设计为切入点,以设计效应和最终类集为工具,构建多阶段抽样下的复杂样本设计的理论分析框架,分析影响复杂样本估计量设计效应的基本要素,解析其对复杂样本估计量设计效应的影响机理及相互作用机制,建立各种要素的设计效应模型及要素组合的设计效应模型,为主样本设计的分析和选择提供有效的方法路径,为住户调查一体化设计建立了内部衔接理论方法基础。
  在应用方面,在充分利用现行国家调查制度的渠道和机制的基础上,构造出我国住户调查一体化设计的基础框架,对住户调查项目按其调查内容特征和内在逻辑关系进行精简、整合,形成以劳动力调查和住户收支与生活状况调查为核心的住户调查体系,并给出以主样本为主体的我国住户调查的一体化设计思路,其思路和方法可以复制推广到其它调查领域。
统计学(统计调查与数据分析) 暨南大学 2016(学位年度)
摘要:本文在总结现有模型辅助估计方法的基础上,发现基于线性模型的估计量和非参数回归估计方法都有相应的不足之处。本文通过构造一种半参数超总体模型,同时结合广义差分估计思想提出一种新型的模型辅助估计量来尽量弥补上述估计量相应的缺陷。该估计量比传统的非参数和半参数回归估计利用更少、更易得到的辅助信息,即只需利用和广义回归估计相同的辅助信息,并且依据的超总体模型具有一般性。
  从理论上证明了该估计量是渐近设计无偏和设计一致的,其渐近设计均方误差为广义差分估计量的方差。模拟结果显示:其至少与广义回归估计一样好;对于线性程度越低的超总体模型,其估计精度比广义回归估计有越明显的提高;就本文模拟而言,光滑参数在0.04~0.12间适当取值时其会取到相对较好的估计效果。同时,实际数据的验证也显示出该估计量至少与广义回归估计一样好,并在“收入-预期寿命”数据组中的估计效果显著优于广义回归估计。最后,把提出的估计方法推广到异方差超总体模型情况、多个辅助变量情况以及二阶抽样设计情况,其中在二阶抽样设计中三种辅助信息情形下进行推广。
统计学 湘潭大学 2016(学位年度)
摘要:信息时代的我们经历过计算机技术的发展,感受互联网互联网的神奇,也享受着云计算和物联网带来的优质便捷的生活体验,如今大数据已经悄然来临,这必然又是一次颠覆人们生活习性和理念的变革。大数据包含着数量巨大的信息,它是多样的,它需要更加快速的处理和应对技术,同时还兼具真实性和价值密度低等特点。大数据给我们带来了重大影响,也带给了我们很多技术和思维挑战而政府作为一个特殊的信息服务主体,掌握着大量的数据信息,毫无疑问,大数据也给政府的信息资源服务提出了新的挑战,面对时代的变革,政府信息资源服务质量也需要不断提升。
  首先,本文分析和整理了与大数据环境和政府信息资源服务相关的理论基础知识。在参考已有的典型SERVQUAL服务质量评价模型的基础上,充分考虑与结合大数据环境下我国政府政府信息资源服务的实际特点,确定首先从5个维度来展开对大数据环境下政府信息资源服务质量的评价,这5个维度分别是有形性、可靠性、反应性、保证性和关怀性。因为政府部门作为服务的主体,有其特殊性所在,如服务内容的公益性与非营利性、服务方式的垄断性和权威性、服务对象的普遍性和服务区域的特定性等特点,加上大数据时代所赋予的政府服务的新的特征和挑战要求,所以这5个维度的指标和一般普通商业组织机构的指标不完全相同,问项也有所区别。
  其次,运用因子分析和主成分分析的方法开发出具有较高信度和高效度的政府信息资源服务质量SERVQUAL评价量表,针对实际问题中不同问项对所在维度的重要性存在差异,对该方法进行改进并提出使用加权差距分析的方法,应用修正差距来计算期望与感知间的差距。
  最后,以国内启动大数据战略的典范有代表性的城市(北京、上海、广州、深圳、贵州、武汉)的政府信息资源服务质量现今状况为实证背景进行实例论证,并且运用结构方程进行拟合,比较传统经典SERVQUAL方法与因子载荷加权SERVQUAL方法优劣。结果表明:加权SERVQUAL具有较高的信度、效度和模型拟合度。由实证分析的结果,以点带面全面深度分析,依据服务差距模型对大数据环境下政府信息资源服务质量的提升和改善提出建议与策略。
统计学 暨南大学 2016(学位年度)
摘要:考虑了Cox模型和变系数Cox模型的变量选择问题,基于自适应LASSO法惩罚偏似然函数,分别对Cox模型的偏似然函数采用二阶泰勒展开式近似逼近,对变系数 Cox模型采用 B样条展开,并运用坐标下降法(CCD算法—Cyclical Coordinate Descent)求解模型,并分别采用十折CV法和GCV法对调整参数?进行选择,从而完成整个变量选择和估计过程。随机模拟的结果显示,基于自适应LASSO的Cox模型变量选择效果优于传统的变量选择法以及LASSO法;在变系数Cox模型中,该变量选择方法对于不同类型的变量的选择效果如下:无关变量>固定系数变量>完全依赖变量>半依赖变量,同时还受到删失率和规模效应的影响,删失率越低,变量选择效果越佳;规模效应越小,半依赖变量被选择的可能性越大。该方法还可以识别变量的常系数项和变系数项,对常系数变量作单独估计。最后,分别构建Cox和变系数Cox财务预警模型,将该方法分别应用于两个模型中寻找对上市公司影响重大的财务因素。
应用统计 大连理工大学 2016(学位年度)
摘要:近年来,条件分位数的估计在金融、经济和生物等许多领域中广泛应用。在研究协变量对响应变量在不同分位处影响时,分位数回归方法是一种贴切且有效的估计方法。然而当研究响应分布的极高或极低条件分位数估计时,传统的分位数回归方法是无能为力的。尤其是对重尾分布,其尾部数据往往是人们关注的重要研究对象。当数据中出现明显的离群值时,估计方法的稳健性也成为了一个重要的考虑因素。
  本文在传统的分位数回归估计和调和的尾部极值指标估计方法的基础上,提出一种重尾分布高条件分位数的调和估计方法(HCS)。通过理论证明,模拟实验和实例分析,可以看出在对高分位数的估计上,新的HCS估计方法弥补传统的分位数估计方法的不足,而且通过估计参数的调整可以做到在估计精度和稳健性之间进行调和以兼顾二者。本文的具体内容如下:
  第一章,介绍了论文中将要用到的概念,理论和模型。
  第二章,介绍了一种重尾分布的条件高分位数的估计方法和一种尾部极值的调和估计方法,在此基础上提出了我们的条件高分位数的调和估计方法及其渐近性质。
  第三章,数值模拟试验。
  第四章,实例分析。
  第五章,定理证明。
应用统计 山西大学 2016(学位年度)
摘要:能力验证(Proficiency Testing,PT),是一项运用实验室间的对比进行鉴定实验室与检验机构能力的项目,同时是认证机构参与国际相互承认协议(Mutual Recog-nition Agreement,MRA)的必要前提,能力验证由中国实验室国家认可委员会(China National Accreditation Boards for Laboratories,CNAL)执行与组织。在能力验证中,为了对实验室的能力评价更加准确,我们需要对数据进行充足的分析,所以统计学方法的充分运用极为重要。在能力验证中,多数机构运用最多的则是传统稳健统计方法,即用数据的Z比分数进行判定。此方法计算简单、容易掌握,但由于该方法是基于数据遵循正态分布假设前提下进行,而实际上并非所有数据都遵循正态分布,同时由于不同的能力验证其最终参试实验室数量及回收周期有所不同,所以传统稳健统计方法在实践的过程中还是会出现一部分问题,导致组织者在直接运用此方法进行结果判定时并不能十分地真实客观。所以,探索更为有效的统计学方法就变得非常重要。目前在能力验证中,已经进行了一些统计学研究方法,有主成分分析方法、非负矩阵分解方法、核密度估计方法和Bootstrap方法等。只是这些方法是否更加合适并不得知,是否存在其他缺陷也没有得到检验,这便需要我们对其进行深入讨论。目前并没有文献对这几种方法进行系统性的检验和总结,本文主要是对这四种方法进行探讨,将这四种方法应用在不同类型的能力验证数据中,并进行对比和分析,找出四种方法的优势和缺陷,最终做出系统性的分析和总结,从而可以用不同的统计学分析方法对应不同的能力验证结果。
  本研究分为四个部分:第一章,主要介绍能力验证相关知识、研究发展的大致情况以及本文具体方法和内容;第二章,主要介绍传统稳健方法、主成分分析方法、非负矩阵分解方法、核密度估计方法和Bootstrap方法的原理;第三章,主要通过四组实例数据对每种统计学方法进行验证;第四章,总结研究成果,提出系统性的分析和总结,从而建立适用于不同能力验证结果分布的统计分析方法。

手机版

万方数据知识服务平台 扫码关注微信公众号

学术圈
实名学术社交
订阅
个性化订阅推荐
收藏
快速查看收藏过的文献
客服
服务
回到
顶部