万方知识发现服务平台
排序:
范围:
统计学 浙江工商大学 2017(学位年度)
摘要:相关性分析是研究数据之间关系的一种方法,是变量随机分析的一个重要课题,而相关性分析的结果能够为发掘数据背后的信息提供有力地支持。从应用角度来看,现在金融保险等领域的投资风控、信贷评估,网络及APP领域的信息推送等等均和相关性分析有着紧密联系。早先学者们对相关性进行了研究,提出了许多度量变量相关性的方法,但这些相关性研究主要关注变量之间相关程度的分析,而对于变量之间相关模式的识别与研究并不是很重视。现有的一些相关系数,如Pearson相关系数,能对变量间的相关关系进行度量但不能对变量的相关模式进行识别,另一些相关系数,如Kendall相关系数、Spearman相关系数等,虽然可以一定程度上反映变量之间的相关关系,但仅仅片面地刻画了变量之间的相关结构。
  数据时代的到来给变量之间的相关性研究带来了挑战。从理论上来看,多个变量之间的相关性关系非常复杂,对于高维的数据更是如此。随着研究的深入,有学者发现原有的一些研究假设并不成立,这些不恰当的假设可能会导致严重的后果。本文受许冰(2010)路径设计的启发,并借鉴近来的一些研究成果,通过构建路径模型体系,综合考察变量间的相关模式及相关性的度量,进而对变量进行路径相关性分析,为变量间的相关性分析提供一种新的方法。
  本文使用Li and Racine(2004)的非参数变量筛选方法,对有关变量进行了分类;基于变量筛选结果构建非参数路径模型体系,分析变量间的整体效应、直接效应和间接效应。发现:(1)不管是在基准模型还是路径模型中,非线性分量的占比大于线性分量的占比,线性分量的波动大于非线性分量的波动,且非线性变量在模型中占主导地位;(2)单路径变量中用电量的整体效应最大,双路径变量中用电量和已用授信额度的整体效应最大;(3)用基准模型的外推精度取代变量间的因果分析,对具体数据进行了模拟分析。
应用统计学 浙江工商大学 2017(学位年度)
摘要:随着城市化进程的加快和社会经济快速发展,很多城市盲目发展和建设,城市资源利用效率低下,导致土地浪费现象突出、淡水和能源资源紧张、环境污染严重、生态系统严重退化、交通拥堵日益严重等城市危机险象频生。而城市承载力的大小严重关系到城市能否持续健康的发展,人们能否享受更高的生活质量。因此,人们迫切希望寻求一种切实有效的模型对城市承载力进行预测,进而对人们的生活和政府的规划进行有效的指导。
  由此本文将城市水资源、土地资源、交通和大气环境作为研究的重点对象,结合统计年鉴和水资源公报等发掘已有的城市数据,分别构建城市水资源承载力评价指标、土地资源承载力评价指标、交通承载力评价指标、大气环境承载力评价指标和综合承载力评价指标,以期为解决城市在快速发展的同时衍生出的诸多问题提供方向。此外,为了较全面展现我国中心城市目前的城市承载力发展状况,本文基于选取的评价指标,选择了京津冀、长三角、珠三角等重要区域及直辖市、省会城市和计划单列市共64个城市来研究其承载力现状。研究发现:2014年度,我国城市综合承载力普遍较差。具体来说,逾50%的城市水资源承载力处于预警甚至危机的状态;逾56%的城市的土地资源承载力处于危机状态;80%左右的城市交通承载力极其脆弱;空气质量达优的城市仅有一个,占1.56%。这一切都表明:我国城市的城市承载力已经受到了严重的挑战,人们的正常生活和社会的健康发展已经受到了严重的影响。
  本文针对这一现象,以基于有限数据的机器学习方法——支持向量机(Support Vector Machine,SVM),从四个方面的城市承载力历史数值角度出发对未来的相应的城市承载力数值进行预测。起初,分别对这四个承载力单列的时间序列数据进行相空间重构生成时序矩阵,扩大信息量,确定水资源、土地资源、交通和大气环境它们各自的承载力最优嵌入维度分别为4、5、2、6.然后运用支持向量回归模型对时序矩阵中的数据进行建模。鉴于模型结果会因为支持向量回归机参数的选择不同导致结果差异明显,本文依据核函数参数敏感度强于核函数敏感度的理论,采取以下两种方式选择参数来提高支持向量机回归预测模型效果:其一,直接使用支持向量机中默认参数;其二,采用粒子群优化算法(PSO)择优选取惩罚因子与核参数。模型效果对比结果显示PSO-SVM比一般SVM的预测结果更加精确,其实用性更好。
  之后使用PSO-SVM模型对杭州市未来五年的水资源、土地资源、交通承载力以及大气环境承载力进行预测。结果显示未来五年杭州市的综合承载能力呈现下降趋势,水资源和大气环境承载力处于较好的状态,一般将不会对杭州市的发展产生较坏的影响。而土地资源承载力和交通承载力则相对比较低下,最有可能对杭州市未来发展可能造成阻碍。
公共管理 辽宁师范大学 2016(学位年度)
摘要:统计作为国家进行管理而制定一系列科学决策的一项至关重要的基础性工作,它跟生产、生活的方方面面紧密联系在一起,是衡量经济发展的重要指标,也是衡量社会管理水平高低的重要标准,因此统计数据质量的高低,直接对政府、企事业单位等决策主体的决策质量和决策效益产生重大影响。
  改革开放以来,我国经济体制初步实现了从计划经济体制向社会主义市场经济体制的转变。新体制既为统计改革提供了有利的机遇,也向统计工作提出了更高更新的要求。经过多年努力,统计改革已初见成效。但数据质量较差仍是困扰我国当前统计工作的一个重要问题,它严重影响了国家重要决策的科学性和宏观调控的有效性。在新常态下,如何采取有效措施提高统计数据质量已经成为各级统计局研究的重大课题。相比中央和省级政府,基层统计部门既要贯彻执行国家和省的统计方法制度,又担负着数据质量审核的重要职责,是政府统计数据质量管理的重要层次和关键环节。本文运用文献研究、经验启示、定性分析等方法,以大连市甘井子区统计局为例,从该统计局的数据质量管理现状入手进行分析,并对大连市甘井子区统计局概况及数据质量管理特点进行详细介绍,针对基层统计部门管理体制滞后、统计法制不健全、基层基础薄弱、统计制度不完善、统计执法难度大、缺乏对统计工作的高度重视等问题进行原因剖析。随后通过查阅相关资料,以西方发达国家在统计数据质量管理方面取得的成功经验为借鉴,结合大连市甘井子区统计局的现状和特点,有针对性的提出完善各级统计机关的管理制度、优化政府绩效考核评价体系、完善统一规范的统计法律制度、强化统计基层基础工作、强化统计执法力度、提高统计意识、提高统计质量的保障措施等建议,希望能够为提高基层统计数据质量管理水平尽微薄之力,切实提高政府统计部门的公信力。
统计学 暨南大学 2016(学位年度)
摘要:为了在有限调查资源下满足日益增长的统计需求,将相互关联的住户调查项目进行整合,实施一体化设计,已成为各国住户调查体系改革的重要方向。
  在理论方面,本文首先按内容特征和内在逻辑关系将住户调查项目分为基本情况类调查、经济特征类调查和社会特征类调查,依据三者的内在逻辑确定调查的主辅关系,进而确定三类调查的调查方法、调查频率和调查方式等设计内容,为住户调查一体化设计奠定理论基础。其次,从内外部衔接两个方向对住户调查一体化设计进行系统研究:从外部衔接的角度对住户调查、人口普查和行政记录进行整体性设计,建立人口普查和行政记录与住户调查抽样框设计以及更新维护的衔接路径,为住户调查一体化设计确立了外部衔接理论基础。从内部衔接的角度,以满足全部住户调查项目需要的主样本设计为切入点,以设计效应和最终类集为工具,构建多阶段抽样下的复杂样本设计的理论分析框架,分析影响复杂样本估计量设计效应的基本要素,解析其对复杂样本估计量设计效应的影响机理及相互作用机制,建立各种要素的设计效应模型及要素组合的设计效应模型,为主样本设计的分析和选择提供有效的方法路径,为住户调查一体化设计建立了内部衔接理论方法基础。
  在应用方面,在充分利用现行国家调查制度的渠道和机制的基础上,构造出我国住户调查一体化设计的基础框架,对住户调查项目按其调查内容特征和内在逻辑关系进行精简、整合,形成以劳动力调查和住户收支与生活状况调查为核心的住户调查体系,并给出以主样本为主体的我国住户调查的一体化设计思路,其思路和方法可以复制推广到其它调查领域。
公共管理 南昌大学 2016(学位年度)
摘要:尽管学术界有关统计数据质量的研究有了一定的理论基础,各级统计机构也在不断的改进自己的工作制度,但对统计理论界来说,如何使统计理论与统计实践相结合?如何在政府统计的过程中,避免主观上的偏差,提高政府统计数据的抗干扰性,避免统计数据的失真,保障政府统计数据质量,都是一个长期需要不断深化和研究的问题。
  从界定政府统计数据质量的涵义出发,分析了统计数据失真的原因:一是由于统计被调查者法律意识淡薄,企事业负责人个人素质不够高,统计基础设施相对薄弱,加上被调查单位统计人员更换频繁,很难做到专职专做,统计数据的持续性和真实性很难从源头上得到保障;二是地方政府的绩效考核机制和人事任免制度对统计数据的质量产生了比较大的干扰;三是具体统计工作流程中存在的客观上和主观上因素。在借鉴国外发展中国家和发达国家在保障统计数据质量上的经验,提出了对统计数据真实性保障机制完善的几条建议和对策:明确政府统计的独立性,完善统计管理体制;加强统计调查制度的设计,改进统计调查方法;提高统计队伍业务素质,培养综合统计人才;健全统计法律制度,提高统计执法检查的地位;改革现有的政绩观,建立科学合理的绩效考核机制和干部任用制度。
统计学(统计调查与数据分析) 暨南大学 2016(学位年度)
摘要:本文在总结现有模型辅助估计方法的基础上,发现基于线性模型的估计量和非参数回归估计方法都有相应的不足之处。本文通过构造一种半参数超总体模型,同时结合广义差分估计思想提出一种新型的模型辅助估计量来尽量弥补上述估计量相应的缺陷。该估计量比传统的非参数和半参数回归估计利用更少、更易得到的辅助信息,即只需利用和广义回归估计相同的辅助信息,并且依据的超总体模型具有一般性。
  从理论上证明了该估计量是渐近设计无偏和设计一致的,其渐近设计均方误差为广义差分估计量的方差。模拟结果显示:其至少与广义回归估计一样好;对于线性程度越低的超总体模型,其估计精度比广义回归估计有越明显的提高;就本文模拟而言,光滑参数在0.04~0.12间适当取值时其会取到相对较好的估计效果。同时,实际数据的验证也显示出该估计量至少与广义回归估计一样好,并在“收入-预期寿命”数据组中的估计效果显著优于广义回归估计。最后,把提出的估计方法推广到异方差超总体模型情况、多个辅助变量情况以及二阶抽样设计情况,其中在二阶抽样设计中三种辅助信息情形下进行推广。
统计学 湘潭大学 2016(学位年度)
摘要:信息时代的我们经历过计算机技术的发展,感受互联网互联网的神奇,也享受着云计算和物联网带来的优质便捷的生活体验,如今大数据已经悄然来临,这必然又是一次颠覆人们生活习性和理念的变革。大数据包含着数量巨大的信息,它是多样的,它需要更加快速的处理和应对技术,同时还兼具真实性和价值密度低等特点。大数据给我们带来了重大影响,也带给了我们很多技术和思维挑战而政府作为一个特殊的信息服务主体,掌握着大量的数据信息,毫无疑问,大数据也给政府的信息资源服务提出了新的挑战,面对时代的变革,政府信息资源服务质量也需要不断提升。
  首先,本文分析和整理了与大数据环境和政府信息资源服务相关的理论基础知识。在参考已有的典型SERVQUAL服务质量评价模型的基础上,充分考虑与结合大数据环境下我国政府政府信息资源服务的实际特点,确定首先从5个维度来展开对大数据环境下政府信息资源服务质量的评价,这5个维度分别是有形性、可靠性、反应性、保证性和关怀性。因为政府部门作为服务的主体,有其特殊性所在,如服务内容的公益性与非营利性、服务方式的垄断性和权威性、服务对象的普遍性和服务区域的特定性等特点,加上大数据时代所赋予的政府服务的新的特征和挑战要求,所以这5个维度的指标和一般普通商业组织机构的指标不完全相同,问项也有所区别。
  其次,运用因子分析和主成分分析的方法开发出具有较高信度和高效度的政府信息资源服务质量SERVQUAL评价量表,针对实际问题中不同问项对所在维度的重要性存在差异,对该方法进行改进并提出使用加权差距分析的方法,应用修正差距来计算期望与感知间的差距。
  最后,以国内启动大数据战略的典范有代表性的城市(北京、上海、广州、深圳、贵州、武汉)的政府信息资源服务质量现今状况为实证背景进行实例论证,并且运用结构方程进行拟合,比较传统经典SERVQUAL方法与因子载荷加权SERVQUAL方法优劣。结果表明:加权SERVQUAL具有较高的信度、效度和模型拟合度。由实证分析的结果,以点带面全面深度分析,依据服务差距模型对大数据环境下政府信息资源服务质量的提升和改善提出建议与策略。
应用统计 大连理工大学 2016(学位年度)
摘要:近年来,条件分位数的估计在金融、经济和生物等许多领域中广泛应用。在研究协变量对响应变量在不同分位处影响时,分位数回归方法是一种贴切且有效的估计方法。然而当研究响应分布的极高或极低条件分位数估计时,传统的分位数回归方法是无能为力的。尤其是对重尾分布,其尾部数据往往是人们关注的重要研究对象。当数据中出现明显的离群值时,估计方法的稳健性也成为了一个重要的考虑因素。
  本文在传统的分位数回归估计和调和的尾部极值指标估计方法的基础上,提出一种重尾分布高条件分位数的调和估计方法(HCS)。通过理论证明,模拟实验和实例分析,可以看出在对高分位数的估计上,新的HCS估计方法弥补传统的分位数估计方法的不足,而且通过估计参数的调整可以做到在估计精度和稳健性之间进行调和以兼顾二者。本文的具体内容如下:
  第一章,介绍了论文中将要用到的概念,理论和模型。
  第二章,介绍了一种重尾分布的条件高分位数的估计方法和一种尾部极值的调和估计方法,在此基础上提出了我们的条件高分位数的调和估计方法及其渐近性质。
  第三章,数值模拟试验。
  第四章,实例分析。
  第五章,定理证明。
统计学 暨南大学 2016(学位年度)
摘要:考虑了Cox模型和变系数Cox模型的变量选择问题,基于自适应LASSO法惩罚偏似然函数,分别对Cox模型的偏似然函数采用二阶泰勒展开式近似逼近,对变系数 Cox模型采用 B样条展开,并运用坐标下降法(CCD算法—Cyclical Coordinate Descent)求解模型,并分别采用十折CV法和GCV法对调整参数?进行选择,从而完成整个变量选择和估计过程。随机模拟的结果显示,基于自适应LASSO的Cox模型变量选择效果优于传统的变量选择法以及LASSO法;在变系数Cox模型中,该变量选择方法对于不同类型的变量的选择效果如下:无关变量>固定系数变量>完全依赖变量>半依赖变量,同时还受到删失率和规模效应的影响,删失率越低,变量选择效果越佳;规模效应越小,半依赖变量被选择的可能性越大。该方法还可以识别变量的常系数项和变系数项,对常系数变量作单独估计。最后,分别构建Cox和变系数Cox财务预警模型,将该方法分别应用于两个模型中寻找对上市公司影响重大的财务因素。
统计学 山东大学 2016(学位年度)
摘要:在实际中,为了应用回归分析方法,人们通常首先要对回归自变量进行选择,以剔除掉对因变量的影响较弱的自变量。当自变量的维数p比样本容量n小或者p相对于n来说不是很大时,变量选择问题有许多成熟的有效的方法,如Lasso、 Adaptive Lasso、Elastic Net、SCAD等方法。近几年来,随着数据收集技术的发展以及数据收集成本的下降,高维数据甚至超高维数据越来越多地出现在科学的各个领域中。所谓的超高维数据是指p远远大于n的情况。这所谓的“大p小n”问题给上述方法带来了严重的挑战,如统计的精确性、模型的可解释性、算法的复杂度等。针对这样的超高维数据,统计学者们提出了所谓的特征筛选方法,即从这非常多的p个变量中剔除对因变量影响较小的变量,这样就可以对保留下来的自变量进行精确的选择并估计参数。经常使用的一些特征筛选方法包括:SIS、SIRS、NRS、DC-SIS、RRCS等。统计学家已经证明这些方法具有良好的性质,如确定筛选性质、选择相合性质等,这就可以确保它们能进行有效的特征筛选。
  本文旨在对这些常用的特征筛选方法进行全面的介绍与比较分析。文章首先详细地介绍这些特征筛选方法,包括它们的理论依据、估计量、筛选准则以及理论性质等,并对它们采用的准则、适用的模型范围、以及优缺点等进行了比较分析;从理论上对这些方法以及它们的异同有了明确的认识。然后,文章又通过数值模拟研究对这些方法的筛选效果进行了对比分析。本文设置的模型考虑了自变量之间不同的相关性、不同的误差分布、不同的活跃预测变量个数等诸多情况;通过模拟研究,对这些方法的适用范围以及模拟效果有了直观的印象。
  分析模拟结果可以发现,这几种方法的模拟效果和它们的理论性质基本是吻合的,它们都能较好地进行特征筛选。在线性模型下,只要信噪比不是很小,本文研究的这几种方法都有很好的模拟效果,能准确地对预测变量进行排序和筛选;在本文设置的这几种模拟情形下,SIS方法只在误差分布非厚尾的线性模型下有良好的筛选效果,SIRS方法在多指标模型和变换模型下的筛选效果比较理想,NRS方法和RRCS方法都在厚尾分布、多指标模型、变换模型以及非参数模型下的有着不错的筛选效果,DC-SIS方法在厚尾分布和非参数模型下的模拟结果有明显的改善;而在预测变量与响应变量对称相关的设置下,本文的模拟试验结果表明,没有哪一种方法明显地优于其它方法。
  随着大数据时代的到来,超高维数据越来越多地出现在科学研究以及人们的生活中。因此研究特征筛选的方法不但具有重要的理论意义,而且也有着重要的实用价值。本文通过理论介绍以及模拟研究认为,在实际中使用这些特征筛选方法时,首先要尽量根据实际的问题以及经验确定合适的模型,然后选择一个较好的方法,这样才能确保有良好的使用效果。
统计学 西南大学 2016(学位年度)
摘要:根据习近平总书记提出的全面建成小康社会,本文对国民幸福感进行调查研究。幸福不是单一维度,而是多维度的综合。幸福指数是衡量社会是否能够很好地满足民众的需求、是否能够为民众提供广阔的自由发展空间、是否坚持科学发展观核心内容的以人为本。在当今大数据的时代背景下,教育统计常用的IRT方法一般用于心理测量、能力测验,本文将IRT应用到社会调查方面即幸福感研究。幸福指数就是幸福感的综合表现,研究幸福感对实现科学发展观和中国梦具有重要的理论意义和现实意义。
  基于项目反应理论(Item Response Theory,IRT),对全国多省、市被试的幸福满意度采用随机发放问卷的形式收集数据进行研究分析。问卷内容包括32个项目(7个基本情况项目,25个调查项目)。回收数据572份,有效数据550份,主要包括重庆、四川、山西、陕西、广东以及台湾等城市,调查对象年龄主要在18~60岁之间,职业主要为公司职员、工人、农民工、教师以及其他职业等。通过IRT对数据分析并且通过运用拟合检验研究不同性别、不同职业、不同地区、不同学历等被试的幸福感。
  基于IRT对数据分析得出:1、民众对于食品安全的满意度低,最关心环境卫生条件。2、女性(0.033)的平均幸福感高于男性(-0.074)。3、随着年龄的增加,被试的幸福感也增加。4、不同职业的被试幸福感存在较大差异,公务员(0.542)幸福感最强。5、具有高中学历(-0.159)的被试幸福感最低,而具有研究生学历(0.121)的被试幸福感最强。6、台湾(0.233)地区的被试幸福指数高于大陆(-0.033)地区。7、陕西省在全国幸福指数最高(0.313)。
  基于IRT的分析结果提出以下建议。对有关部门拟建议:1有关部门加强环境的治安管理。2、政府工作人员增强服务意识。3、加强公民道德建设以及素质的提升。对民众的建议:1、丰富自己的闲暇生活。2、保持好的睡眠质量和充足的睡眠时间。3、加强体育锻炼。4、加强家庭与社会的沟通交流,特别是男性。
统计学 云南财经大学 2016(学位年度)
摘要:在统计学中,增长曲线模型是一种特殊的多元线性模型也称为广义多元方差分析模型(GMANOVA)。增长曲线模型是一般线性模型的推广,它比一般线性模型含有更广的应用范围和更加丰富的理论内涵,因此得到广泛关注。增长曲线模型在经济,生物,医疗和流行病方面有着广泛的应用,也是序列相关和重复观测的纵向数据的基础分析工具。虽然增长曲线模型得到广泛的应用,但是对于组别设计阵未知的增长曲线模型的参数估计与分类问题一直没有得到解决。本文主要针对组别未知的增长曲线模型的参数估计和分类问题,主要使用的方法为EM算法。在统计学中,EM算法是一个迭代寻找最大似然函数或者最大后验函数的过程。这种算法可以广泛的应用于处理缺损数据,截尾数据,带有噪声等所谓的不完全数据。在1977年Arthur对EM算法进行解释和给出它的名字。在1977年Dempster对EM算法进行推广与收敛的证明。
  研究内容与方法:前人所研究的增长曲线模型主要针对组别设计矩阵为已知情况,进行参数估计,而本文所要解决的是组别设计阵未知的增长曲线模型的参数估计,因此这些方法并不适用。本文主要通过分析EM算法在高斯混合模型中的理论知识及其的应用,发现此方法可以解决设计阵为未知情况的增长曲线模型的参数估计难题。如果想要将EM算法运用于组别设计阵未知的增长曲线模型,则需要计算增长曲线模型的对数似然函数与其EM算法中的E-STEP和M-STEP,其中E-STEP为似然函数在给定信息和上一次迭代的参数下对缺失数据的求均值,然后再M-STEP中,求解关于未知参数的似然函数最大化,并且反复迭代直到收敛。但是由于计算机精度的问题,不能随机选出初始值,在这里,我们设计了两种选择初始值的方法。第一种为假定Σ=Ⅰ,并且通过最小二乘法计算初始值的估计,然后进行迭代。第二种方法为假定设计阵为一种已知情况,然后通过组别设计阵已知的方法进行参数估计Σ与B,并将此作为初始值。对矩阵设计阵未知模型的参数估计的渐进方差,本文提出两种方法,最后采取bootstrap方法。而对于模型的参数选择问题,本文运用AIC与BIC准则进行参考。最后运用计算机模拟和真实数据,验证本文提出的方法在实际数据中的效果。总的来讲,本文将EM算法运用到组别设计阵未知的增长曲线模型,并进行参数估计,最后证明了EM算法在增长曲线模型的实际合理性。关于参数选择方面,主要运用AIC准则对变量进行选择。
  本文为组别设计矩阵未知的增长曲线模型的参数估计提供一种思路与方法。通过本文算法,可以为符合这类增长曲线数据提供一种分类方法。对于组别设计矩阵未知的增长曲线模型,本文提供了一种基础方法与思考路径。并且该方法在实际中可应用于药效诊断与金融分析。
统计学 广西师范大学 2016(学位年度)
摘要:变点检测是当今统计研究中的热点问题之一,已经被应用到了工业、经济、金融、遗传基因和信号过程等多个领域。另一方面,许多时候我们只能观察到数据信息或者总体的部分信息,对其总体分布类型一无所知,此时如何进行变点检测是一项非常困难的工作。论文计划在此方面做一些探索工作。
  论文在邹长亮等人(2014)的研究基础上,借助修正的Berk-Jones函数,利用非参极大似然方法讨论多变点问题。之所以借助修正的Berk-Jones函数,主要是因为在大样本方面,它们与经验似然方法具有相同的极限性质,在小样本模拟方面,在某些情况下,利用它构造的检验具有较高的功效。具体来说,首先把邹长亮等人(2014)中的经验似然函数用修正的Berk-Jones函数替换,构造出新的似然函数;然后同时诊断变点个数和位置,估计相应每一段的分布;接着讨论它们的统计性质,主要是大样本下的极限性质;最后给出模拟比较。理论上,我们得到方法的渐近性、算法的相合性和较快的收敛速度等。模拟结果显示,在某些情况下,我们的方法能够较快、较准确地检测出变点个数和变点位置。
  本文的主要贡献归纳如下:
  1.利用非参极大似然方法,减少了对分布和模型的假定,从而避免出现模型假定错误。借助修正的Berk-Jones函数,使得理论证明和算法比较简洁明了。
  2.在一些相对宽松的条件下,可以证明,在对变点的估计没有任何分布假定的情况下,本文的非参数多变点检测方法可以实现较快的收敛速度。
  3.模拟显示本文提出的基于修正BJ方法,在某些情况下,能够比较快速有效地估计出了变点的个数和位置。
  在实际工作和生活中,许多数据序列都是未知的,也无从验证其明确分布,论文结论和方法为寻找变点提供了较为可行的做法。
应用统计 重庆大学 2016(学位年度)
摘要:目前国内外化工企业对生产的安全检测主要是通过微观方面和事中监测,也就是对生产过程中对化工生产机械、排放量等进行检测,很少针对事后监测或者研究化工安全事故的发生与当地经济、当地企业资产构成、费用构成之间的关系。针对此类现象本文将利用插值法、n次多项式拟合法处理数据,对化工企业安全事故数据与化工企业所在地经济水平进行聚类分析,本文将利用R程序采用聚类分析中的最长距离、重心、类平均和离差平方和法的办法处理化工安全事故数据与该省经济水平数据,从而得出结论。
  另一方面本文对化工安全事故数据与化工企业内部费用、资产构成(包括:管理费用、负债、资产等)利用多元线性回归,建立线性模型,对其关系进行分析,并对相关结果进行回归诊断。将数据分析的结果应用于化工企业安全管理中。
统计学 安徽大学 2016(学位年度)
摘要:回归分析是研究变量间相互依赖关系的统计分析方法,主要包括参数回归和非参数回归.参数回归需要事先假定变量之间的函数形式,但在研究过程中我们发现,事先假定的函数形式并不一定符合实际的要求.非参数回归是比较灵活的回归方法,不需要假定变量间的函数形式,充分利用数据本身,选择适当的回归函数拟合数据的变化趋势,提高了估计的精度.面对高维数据问题时,我们需要选择合适的变量进入模型.Lasso正是一种最常用的基于惩罚回归的变量选择方法.
  本文首先详细介绍了基于截断幂基的惩罚样条回归模型的构造,并通过积分近似计算的例子,展示了惩罚样条回归的应用价值,并利用该方法拟合了经济学中的洛伦茨曲线.其次,本文介绍了另外一种样条基函数--B样条基函数的定义和性质,并提出了基于B样条基的改进的Lasso方法.该方法利用相邻节点之间函数值极差的倒数作为惩罚调节来压缩模型系数.模拟显示该方法改进了Lasso算法的优越性.并给出了一个基于该方法的医学实例.
应用统计 首都经济贸易大学 2016(学位年度)
摘要:随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。随着大数据概念的普及,维基百科给出了一个定性的描述:大数据是指无法使用传统和常用的软件技术和工具在一定时间内完成获取、管理和处理的数据库。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。整个社会如同一个大的社群,然而又由于不同的主题目标集合成一个个小的社群,在大数据时代的到来和庞大的数据冲击下,社交群体的生活方式、投资方式以及思维方式也发生了改变。尤其是社群中人们在投资理念方面产生了很大的改变,以往的投资分为实体投资和金融投资,渠道也更倾向于自主的小范围的群体之间来做投资决策,而在数据时代人们的投资决策会在数据传输迅速的形势下受到社群的信息传播影响,进而在短时间内影响我们的投资决策,形成整个经济面的涨幅和急跌。这种对经济的冲击不仅引起了国家层面的重视,也引起了一些寿险公司的注意,随着金融一体化进程的推进,寿险公司经营与金融市场发展联系日益密切,在这种纷繁复杂的金融环境中,保险公司却屡屡出现“退保风潮”,“客户大规模兑退保”等群体事件,在这些冲击中寿险公司对退保的理论研究及各因素之间的关联及相互效应的分析还不到位,解决退保问题的对策还不够明确详尽。于是在海量数据的冲击下,寿险公司在进行产品设计和准备金警戒线以及投资策略时都会将社交群体中人们的行为和传播主导意向考虑进去。寿险公司的理财险和万能险是一种迎合当下的新型理财模式,深得消费者的喜爱,在寿险公司日常运营管理中,最关注三大经营指标,退保率、大病保障率和续期率,而退保率是管理层最关注的一个指标,不仅关乎业务的开展和投资的策略保障性,甚至关系到整个公司资金链的连续性,也关系到整个公司的战略发展甚至整个行业的可持续,上升更高层面上会对整个国民经济的平稳发展产生冲击。
  本文在互联网背景下,考虑到整个信息传输在社交化平台越来越扁平化,研究社交化投资对寿险公司中客户退保行为的影响意义重大。首先对保险和退保等相关概念就权威机构发布的概念释义进行阐述,接下来回顾了当前国内外保险的发展历程和一些重要的理论成果,结合近几年保险机构的权威数据指出我国寿险公司退保现象的特点和退保现象在整个寿险公司的概况。本文就某寿险公司保单信息表中退保客户的标签变量进行统计分析,并通过统计模型来找出对退保人的保单数产生显著影响的显著性变量,再从宏观基本面来阐述哪些因素会对寿险公司退保产生影响,进而为寿险公司提出建议和策略,旨在降低退保率进行退保风险管理,以期在资本寒冬期间风险突出的当下推动寿险公司防范退保风险起积极的作用。
  本文为了全面而又多维度的分析影响寿险公司退保人行为,从微观和宏观两个角度去分析。首先从微观层面,本文以寿险保单为研究对象,将保单表中退保人的信息维度采集为变量的形式,具体做法是从某寿险公司的生产数据库中随机不放回的抽取2014年10000个数据作为基础数据集构建数据模型以及找出显著性标量,采用R软件对客户的变量进行描述统计,接下来采用LOGIT和PROBIT模型进行建模,如有异常值将剔除异常值重新建模,建模以后利用AIC和BIC来筛选最优变量,进而确定模型中显著变量的系数,而得出对于退保人而言,何种特征的人群比较倾向于退保。此数据库中的数据包括社交化软件平台购买保险的数据。在宏观层面:本文在基于整个经济大环境在数据冲击,进而影响产业结构和经济策略的背景下,结合宏观数据进行描述分析,指出退保宏观层面的原因主要有通货膨胀和利率,并且找出他们之间的变动关系和变动方向。存在于寿险公司管理的体制机制问题也会引起客户的退保,比如其他金融理财产品对寿险产品的替代性、寿险产品内在的局限性、代理人员的销售误导、后期服务等。通过宏观层面的分析来为寿险公司接下来根据政策来调节自己的产品方向,来为公司合理配置资源,比如普及相关的保险知识,让客户自己的风险可控下消费保险,维护好保险行业的良好形象,对其进行正向宣传,加强内部管理,减少销售误导;不断地完善产品,削弱风险;加强风险管控,建立预警机制。完善保险保障功能、消除保单价值流动性;提高服务质量等。微观层面的分析主要是在购买保险的客户中找出退保概率最低的客户作为寿险公司的主力客户,通过模型的显著性指标来对客户做画像,将那些具备显著指标特性的人锁定为退保概率高人群,将显著指标表现不显著的客户作为重点营销客户,进而可以为业务代理人员在前期的市场投入方面精准营销并减少人力和劳务成本以及开发客户的游说成本。
应用统计 首都经济贸易大学 2016(学位年度)
摘要:卫生事业关系到国计民生,关系到地区居民的幸福指数,历来为我国所重视。在过去五年里,党和国家严格按照《“十二五”规划》,大力发展卫生事业,推进地区医疗和卫生事业建设,取得了显著成效。在刚刚出台的《“十三五”规划》中,对卫生事业的发展又有了新的要求,更加强调地区和城乡的发展平衡。因此,研究“十二五”时期各个地区卫生事业的发展状况,以及城乡总体的发展情况,为“十三五”提供指导和建议就十分有现实意义。
  《“十二五”规划》完成之后,由于数据的滞后性,2015年的数据没有出来。因此在指导《“十三五”规划》发展的时候,就遇到以下三个方面的问题:首先,在过去几年里,地区卫生事业的完成情况如何;其次地区卫生事业的发展与实际情况是否相匹配;最后,城市和农村的规划完成情况如何,差异有多大。
  本文根据上面这三个问题,来展开探讨。首先是对各个地区“十二五”时期的卫生事业发展情况作了分析,用的是描述性统计方法,通过作图,展现了各个地区的发展状况。本文发现中西部地区的发展较弱,而且缺少医护工作人员。然后,又通过聚类分析方法,根据各个地区的卫生事业的实际情况和发展速度来分别聚类。本文发现全国整体的情况是合理的,但是依然有十个省份的发展速度是与自身的情况不符的。最后,本文通过灰色预测方法,对城市和农村的发展情况作了分析。本文发现城市和农村在医疗资源方面差距巨大,而且农村地区的发展速度还相对较慢。
应用统计 首都经济贸易大学 2016(学位年度)
摘要:在经济新常态下,中国旅游产业在产业供给、市场需求、发展方式等方面也呈现出一些新特征,但旅游业极易受到外界不确定因素的影响。有突发因素,如经济危机、“非典”、战争等。有自然因素,比如海啸、地震、台风等。还有监管漏洞,如“青岛大虾”事件,导游骂人打人事件,甚至财产诈骗等。这些因素都会影响一个地区或国家旅游业的健康发展,所以研究一个国家或地区的旅游市场景气,不仅能推动旅游业、相关企业的发展,还能为旅游者提供更好的服务。
  本文结合北京旅游市场的特点,试图构建城市旅游市场景气的研究框架,同时尝试构建北京旅游市场的模型及测量方法,来编制北京旅游市场景气指数。本文主要综合采用了统计分析法、文献研究法、定性以及定量分析法、描述性研究法等。通过阅读各类文献,本文总结出了国内外景气指数的突出应用以及旅游市场景气研究的不同方法,着重分析了旅游市场的影响因素,然后通过合成指数法编制北京市的景气指数。
  编制北京旅游市场景气指数将对北京的旅游业健康发展发挥着重要的作用。一方面从宏观的角度看,旅游市场景气指数能够为政府对旅游行业以及周边相关产业的宏观调控提供有力依据。另一方面从微观的角度看,对于旅游市场企业包括酒店、旅行社、餐饮以及交通运输等提供了科学的运作策略研究参考。
统计学(大数据分析) 首都经济贸易大学 2016(学位年度)
摘要:21世纪以来,随着智能手机与互联网技术的不断发展与革新,移动互联网作为二者结合的产物,近年来发展迅猛。数据显示,2014年中国智能手机保有量达到7.8亿台,移动网民达到5.7亿人,且以飞快的速度在不断增长。随着人们使用智能手机的时长和频数的不断增加,其用户行为数据呈指数级增加。且从智能终端收集的数据具有大数据量、实时性、准确性、空间性、动态性的基本特征。为了解决这一大数据的分析需求,本文从用户角度出发,以2014年第四季度部分手机用户使用APP的行为数据为研究对象,从用户画像的用户属性、用户流失、用户行为三个主要方面进行了研究。
  首先,研究认为用户画像其是对现实世界中用户的数学建模。用户画像的核心是标签体系的建立。标签是某一种用户特征的符号表示,用户画像可以用标签的集合来表示。其次,依据用户一段时间内的使用行为数据,通过支持向量机、生存分析两种分析方法建立了用户流失预测模型。模型结果表明,对于用户流失的预测准确率基本能达到90%以上,模型预测召回率达到80%以上。最后,使用hadoop中的mahout分析框架,对用户20多项行为指标进行了聚类分析,分析得出了不同阶层的用户人群对于APP的偏好和使用习惯特征。并抽取了某一APP用户行为数据,对其进行了聚类分析,分析认为用户基本可以分为六类人群,依据不同的类型,也给出了相应的挽留策略与营销建议。
  本文总结和概述了用户画像的定义,分析了标签体系建立的基本流程和统计分析方法。创新性的提出了用户画像研究的三个基本构成要素,即代表用户出生的用户属性、记录用户一生的用户行为、描述用户消失的用户流失。参照流失的定义,依据实际场景对APP用户的流失作了新的定义,并建立模型预测用户流失行为。对于用户画像中用户行为的研究,文章将营销中的FRM指标用于用户行为的分析,结合聚类分析的统计方法,更好的解释和描述了用户的行为特征。
应用统计 首都经济贸易大学 2016(学位年度)
摘要:在“后工业”时代,全球性竞争日趋紧张的今天,文化创意产业的发展对产业结构优化升级,转变经济发展方式,提高区域间竞争力,促进经济良好快速可持续发展具有非常重要的现实意义。文化创意产业以其特有的文化内涵和融合性,创造出高附加价值和高生产效率,为经济发展带来巨大的驱动力,被称为“软实力”。以科技、文化相融合的文化创意产业的发展规模和程度,已经成为呈现一个国家或地区竞争力、产业活力、经济水平的重要指标。
  当今全球范围内,文化创意产业的发展已成为许多国家经济结构转变的新趋势。欧美等发达国家已经开始大力扶持文化创意产业,将其当作提升就业空间,促进经济增长的重要手段,文化创意产业已成为国民经济的重要支柱。当前我国的很多城市也将文化创意产业作为“调整产业结构,转变经济发展方式”的重要抓手。
  “十一五”期间,北京初步确立文化创意产业的支柱地位。2013年,为了适应发展新需求,北京市提出将产业集聚化,按照空间格局定位各区功能,建设“文化创意产业功能区”,从而进行产业调整,优化产业空间布局,促进生产要素集聚与生产效率的提高,拉动北京经济更好更快发展。
  本文要研究的问题则是结合北京市各区文化创意产业的现状,以及行业特征和区域优势,使各区充分发挥对城市经济、社会和科技的带动作用,提升北京市空间布局协调性。
  本研究以文化创意产业发展为背景,分析了北京市文化创意产业的发展状况。首先,通过对北京市文化创意产业的各项指标进行描述性分析发现北京市文化创意产业发展的自身特点及存在的一些问题,并针对对这些问题提出了一些合理性意见与建议。第二,我们利用区位熵作为产业集聚评价指标,对北京市各区的文创产业的空间聚集状态进行比较分析。第三,结合区位熵,运用因子分析和主成分分析方法构建北京市文化创意产业竞争力指标体系,综合评价各区的文化创意水平。第五,利用空间统计方法,对2014年北京市16个区的文化创意产业相关数据,在空间效应与布局方面对其进行统计分析,得到北京市各区的发展优势与对城市经济的作用,第四,通过建立线性回归模型分析了影响北京市文化创意产业发展的主要相关因素。最后,结合上述研究得到的结论,对北京文化创意产业的发展提出一些政策性建议与意见。
万方书案
学术圈
足迹
订阅