绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友
万方知识发现服务平台
获取范围
  • 1 / 70
  (已选择0条) 清除 结果分析
找到 1384 条结果
[博士论文] 刘炜
计算机应用技术 湖南大学 2017(学位年度)
摘要:人类基因组计划的完成标志着现代生命科学研究进入了系统生物学时代。系统生物学不仅仅是一个新兴的领域,更重要的是它代表一种对生物学研究的新方法。人们逐渐认识到在研究过程中不能仅局限于研究单个基因,而应该全面地从系统的角度去探寻这些基因之间的表达调控规律,研究整个生命系统的运行机制,最终破译生命遗传的秘密。
  随着高通量技术的飞速发展,大量的研究结果产生了海量的基因表达数据。如何从这些数据中发掘出具有生物意义的调控关系以及调控规律是后基因组时代人类所面临的最具挑战性的生物学问题之一。基因调控网络结构推测的目的正是从基因表达数据中构建基因与基因间相互调控关系所组成的网络结构。因此基因调控网络结构推测的研究具有重大意义。本文以基因表达数据为研究对象,以信息论为背景,针对当前基因调控网络推测方法中存在的一些问题开展基因调控网络结构推测算法的相关研究。本文主要工作概括如下:
  (1)针对当前大多数基于信息论的基因调控网络模型中主要采用单一网络特性推测网络结构的现状,本文将拓扑理论中的节点中心性与信息论中的互信息相结合提出了一种基于网络拓扑中心性的基因调控网络结构推测算法LDCNET。该算法首先采用互信息对基因间调控关系进行初始化和预处理。其次分别计算每一个基因的节点中心性并基于中心性对所有基因降序排列。当排序过程中出现不同基因具有相同节点中心性的情况时,依据一种基于目标基因的相邻基因节点中心性的策略对序列进行再次排序。最后依次为序列中的每一基因挑选出调控基因,并最终将所有基因的调控关系整合成完整的调控网络结构。算法在四个数据集上对其有效性进行验证,实验结果表明该算法具有良好的网络结构推测性能。
  (2)针对基因表达数据的“高维度、小样本”的数据特点,本文提出了一种基于最大相关最大显著的调控网络结构推测算法 MRMSn。该算法将基因调控网络结构推测问题转化为为每个目标基因挑选调控基因的二分类问题。为了有效挑选目标基因的调控基因,算法给出了一种基于互信息和熵减少的特征基因挑选模型,模型提供的一阶增量搜索的算法保证了所挑选的调控基因能近似地获得模型的极优值。模型中涉及不同特征的权重问题,因此本文给出了一种基于局部密度的权重自动设定方法。最后所有基因的调控关系基于一种给定约束被调整,并整合成完整的调控网络结构。算法在五个数据集上进行有效性验证,实验结果表明该算法具有良好的推测性能。
  (3)基因表达数据具有高噪声及非线性相关的特性,这使得基因调控网络结构的推测具有较高的假阳性率,有必要通过冗余控制技术分别除去这些冗余的调控关系。为此本文提出了一种基于冗余控制策略的调控网络结构推测算法RRMRNET,该算法是 MRNET算法的一种扩展。该算法首先利用一种新的基于信息论和聚类技术的冗余控制策略以减少非线性相关所引起的冗余调控关系;然后基于互信息及条件互信息为每一个目标基因分配有效的“best-first”调控基因以减少因数据噪声所引起的冗余关系。最后将所获得的每一个基因的候选基因集及“best-first”调控基因作为 MRNET算法的输入并获取最终的网络结构。RRMRNET算法在六种数据集上进行有效性验证,实验结果表明冗余控制策略能有效提升网络结构准确性。
[硕士论文] 冯清
公共卫生 山西医科大学 2017(学位年度)
摘要:目的:
  以NCBI创建的开放式基因表达综合数据库(Gene Expression Omnibu,GEO)为例,开发爬虫程序可以有效的解决日益增长的高通量基因表达的实验数据带来的问题。对信息进行挖掘和处理,而不被海量信息所淹没,提高数据库的利用率;减少生物医学信息资源的浪费,为医学工作者供给全面的基因表达数据信息,推动临床生物信息学的发展。
  方法:
  1.文献分析法:
  查阅网络爬虫系统、网页抓取技术、GEO数据库方面的相关文献等,深入学习了解网络爬虫系统发展现状,网页抓取技术的策略和GEO数据库发展现状。为开发设计专门适用于GEO数据库中RNA相关数据抓取的网络爬虫系统提供理论参考和实践经验。
  2.编程语言:
  利用Python语言编写爬虫程序。
  3.数据库技术;
  使用MySQL数据库技术储存爬虫程序爬取到的基因表达数据。
  结果:
  1.本研究成功开发一款爬虫程序,爬虫程序投入运行;
  2.爬虫程序抓取GEO数据库中全部基因表达数据共71032个,并保存在Mysql数据库中。
  结论:
  爬虫程序实现GEO数据库中基因表达信息相关数据的自动抓取,免去人工下载的繁琐,有效的实现数据的大规模下载。高效地从数据库的海量信息中挖掘出有效的信息或者生物知识,帮助临床研究者浏览生物医学文献,允许数据资源的批量下载,很大程度上方便生物研究与信息的查询与借鉴。其抓取到的成果不仅对基础医学研究有极大推动作用,而且对人类疾病防治,基因定位等都具有重要意义。
[硕士论文] 杜博雅
计算机科学与技术;计算机应用技术 东北农业大学 2017(学位年度)
摘要:在生物信息学领域,生物基因的序列比对一直是科学研究的热门问题之一。随着生物学的发展与对物种研究的深入,基因数据日益增多。同时新一代测序技术的出现,测序时间和成本下降、测序通量高使序列数据显著增加,呈指数形式增长趋势,并且每天仍有新的生物基因序列数据被发现和记录,而数据产生的速度远大于数据处理的速度,因此对大规模DNA测序数据的处理亟待更高效的方法。对海量数据进行及时有效的处理、分析,对于揭示其内涵、阐明和理解其所蕴含的生物学意义、得到对人类有用的信息具有重要意义。序列比对作为基因数据研究的基础问题,能够为后续基因组计划等研究提供重要信息,因此提高测序数据的序列比对速度至关重要。
  本文通过对已有序列比对算法的研究,针对目前基于BWT(Burrows-Wheeler Transform)索引技术的比对软件比对准确率高且内存消耗小,较其他基于哈希表的方法性能优越,但存在访存次数多,时间消耗较大的问题,就如何提高BWT索引技术的序列比对速度进行研究,提出一种应用基于Intel微架构的AVX(Advanced vector Extensions)指令技术,从改进原有算法内部函数运算方式的角度进行单线程并行优化的方法,对BWT算法中计算量大、多次递归调用的函数进行改写,减少函数运算次数及CPU访存次数,提高算法执行效率,实现提高BWT算法序列比对速度、降低算法时间消耗的目的。
  本文设计并实现了基于AVX指令集优化的BWT序列比对算法,在对BWT算法的代码及实现过程进行深入研究之后,找到适于AVX指令对代码改写的部分。将occ函数结果全部计算出来并存在内存中,在计算时使用AVX指令集的计算方式进行计算,使计算机能够一条指令并行执行多次计算,极大缩短算法运行时间。为验证比对结果的准确性和速度比,本文采用大豆测序数据对算法进行实验。实验结果表明,本文提出的指令改进有效提高了算法的查找效率,加快了序列比对速度。在接近源码比对准确率的同时提高比对速度近50%,使算法时间性能得到显著提升,实现序列比对在算法改写方向的并行优化。
  本文提出的基于AVX指令集的BWT序列比对算法相比于传统的算法计算过程,能够进行并行计算查找,有效减少函数计算时的循环遍历,减少计算次数与CPU访存次数,降低算法时间复杂度,提高序列比对速度,使得算法的时间性能有所提高。并且算法性能十分稳定,在低误配率下表现良好,对更精确的序列比对算法改进具有实际意义,为基因数据分析提供更高效快速的序列比对方法,为进一步加快对全基因组序列的处理打下基础。
[硕士论文] 李小永
计算机科学与技术 西安电子科技大学 2017(学位年度)
摘要:随着人类基因组测序和多种生物模式的顺利完成以及DNA微阵列技术的应用,由此产生了大量的基因表达数据,这些数据具有维数高,样本小的特点。如何有效地从大量基因表达数据中挖掘有价值信息,以求认识数据本质,了解生命过程,分析疾病形成原因,揭示基因功能和相互作用成为目前生物信息学研究所面临的巨大挑战。
  基于基因聚类和样本分类是针对基因表达数据挖掘其有用信息的关键手段。基因聚类就是对基因功能划分的一种重要手段,其中选择一种高效聚类方法是至关重要的。对样本分类是实现对基因识别和疾病诊断的一种有效辅助方式,其中对具有高维小样本数据分类的关键步骤是对数据进行降维和特征提取。本文针对基因聚类和样本分类,分别从非负矩阵分解和稀疏表示两个方向做了相关研究。
  方向一:非负矩阵分解作为一种新的矩阵分解方式,也是一种新的聚类方式。由于具有非负约束,不仅使得分解后结果具有现实物理意义,还能够较容易提取训练样本的局部特征,本文采用非负矩阵分解对基因聚类做了如下研究:
  基因聚类是挖掘基因有价值信息的一种有效方式,通过基因表达水平研究具有相似功能的基因。本文主要通过非负矩阵分解方法对基因的相似功能进行研究:
  (1)传统聚类方式过分依赖相似性度量,而非负矩阵作为一种有效的数据聚类方法,并不依赖相似度量函数,因此,本文使用基于非负矩阵分解对基因表达数据进行聚类分析;
  (2)非负矩阵分解对基因表达数据聚类并不能总是展现出良好的聚类效果,因此结合K均值聚类,提出一种基于非负矩阵快速聚类方法;
  (3)对yeast数据进行基因聚类分析,将文中所提方法与基本的非负矩阵分解和传统聚类方法进行实验,结果表明,所提出的基于非负矩阵快速聚类方法获得更稳定聚类效果。
  方向二:稀疏表示作为一种识别率高,鲁棒性强的分类技术,受到众多科研工作者的关注。稀疏表示技术并不关心特征的提取,而在于过多强调分类器的设计,因此,基于稀疏表示对基因表达数据分类的重心在于分类器设计。围绕非负矩阵分解和稀疏表示做了如下工作:
  基于基因表达数据样本分类,包括:
  (1)基于微阵列技术产生的基因表达数据不仅具有典型的高维小样本特性,而且有时每类样本数相差很大,造成严重数据倾斜,因此,提出一种基于数据平衡策略的稀疏表示方法;
  (2)传统的稀疏表示分类只是利用基因表达数据之间的线性关系,缺乏内在非线性关系,因此,利用基因的相似距离,提出一种相似性稀疏表示方法;
  (3)针对稀疏表示对高维小样本数据分类的运行速度慢而提出一种稀疏表示的快速计算方法,该方法在不损失精度情况下,大大提高了运行速度;
  (4)众所周知,基因表达数据也是一种典型高冗余数据,因此,为了降低基因表达数据冗余度,提出一种基于非负矩阵分解子空间的稀疏表示对基因表达数据分类;
  (5)基于6类真实基因表达数据进行了相关实验,结果表明:基于数据平衡策略的稀疏表示方法对于倾斜数据获得了更好的分类效果;相似性稀疏表示方法主要依赖于相似度量方式。
  本文采用了欧式距离、余弦距离、皮尔森系数三种度量方式,只有基于余弦距离和皮尔森系数的分类效果优于基本稀疏表示分类;稀疏表示的快速计算方法效率明显提高,仅对mit数据而言,高达32倍,其他数据也提高2-10倍;基于非负矩阵分解子空间的稀疏表示不仅降低了对具有高维小样本的基因表达数据对算法分类精度的影响,且在6组真实基因表达数据上实验的结果优于SRC,KSRC,CRC,MSRC,CRCpSOC和SVM等方法,而且在算法的稳定性方面也展现出良好的效果。
[硕士论文] 邱留洋
生物物理学 电子科技大学 2017(学位年度)
摘要:多肽在人体代谢的各个过程都承担了重要作用,其中包括细胞增殖、细胞分化、消化代谢、免疫防御、肿瘤病变等。在1953年,美国生化学家第一次人工合成了催产素这一多肽,标志着多肽可以为人们所利用。在经历了长期发展之后,现在在全球范围内上市的多肽药物已经超过了80种,并且还有很多多肽药物处于正在研究的阶段。与其它药物相比,多肽类药物具有一些独特的优势:药效好,特异性高,通常在人体内不会产生累积,很少和其他药物发生交叉作用。
  多肽药物虽然具有上述的这些优势,不过同其它的药物对比,多肽药物同样存在着缺点:多肽的稳定性较低,常常被肽酶分解为氨基酸,这导致多肽的半衰期很短,为了保证药效需要重复为患者给药,很不方便。为解决这一问题,学者们探索了很多新方法,蛋白融合技术是目前延长蛋白和多肽类药物半衰期的有效手段之一。Fc融合则是目前研究最多、进展最快的蛋白融合技术,它通常是将IgG蛋白的Fc段同筛选出的多肽融合在一起。这样的多肽(Peptide)-抗体(Antibody)融合蛋白被称为“肽体”(Peptibody)。
  研究者发现:在罗米司亭(romiplostim)这一药物中,Fc段和多肽通过不同的方式连接所得到的活性差别极大。通过Fc的C端和多肽连接的活性相比于通过Fc的N端同多肽连接要高出10倍以上。但对多肽与抗体连接方式与药效间的关系和相应的机制还尚不清楚,对其的研究也更多集中在实验方面,理论上的探索寥寥无几。
  本学位论文拟从结构生物信息学角度出发,利用ITASSER在线服务预测蛋白结构以及 ZDOCK对接蛋白从而构建相关的模型,预测分析出不同连接方式的肽体同受体的结合情况。然后通过 AMBER等分子动力学模拟软件计算结合自由能以及能量分解的方法研究不同结合方式的肽体同受体的相互作用,从理论上尝试解释不同肽体药物连接方式不同所致的活性不同提供理论支持。也为以后设计肽体药物给出理论上的预测。
[硕士论文] 刘光辉
电子与通信工程 大连海事大学 2017(学位年度)
摘要:作为人类基因组重要的表观遗传现象,DNA甲基化是基因表达调控中常见而又重要的机制,参与细胞分化与增殖、生物体老化、肿瘤发生等多种重要的生命活动。DNA甲基化状态的检测是肿瘤类型鉴别诊断的辅助手段,可用于癌症发生的抑癌基因特异性失活的检测。新一代测序技术可以实现全基因组单碱基分辨率的甲基化检测,但是测序方法相对昂贵,采用计算的方法对DNA甲基化进行预测成为当前DNA甲基化生物信息学研究的热点。
  本文构建了预测DNA甲基化状态的三种神经网络模型,结果表明,与已有的模型相比,提高了DNA甲基化的预测准确率。本文主要工作如下:
  (1)利用人工神经网络模型预测DNA甲基化状态。使用人工手段组合不同的DNA甲基化特征,训练人工神经网络模型,预测DNA甲基化状态
  (2)利用深度神经网络和卷积神经网络预测DNA甲基化状态。使用DNA甲基化的全部特征信息,分别构建5层的深度神经网络模型和4层的卷积神经网络模型预测DNA甲基化状态。
  (3)利用深度神经网络和卷积神经网络提取的DNA甲基化特征,使用随机森林分类器进行DNA甲基化的预测。提取深度神经网络模型得到的特征,输入到随机森林模型进行状态预测,将深度神经网络提取到的特征结合原始特征一起作用于随机森林模型进行状态预测;提取卷积神经网络得到的特征输入到随机森林模型进行状态预测,将卷积神经网络得到的特征结合原始特征一起作用于随机森林模型进行状态预测。
[硕士论文] 李坤锋
机械电子工程 汕头大学 2017(学位年度)
摘要:本文在国家自然科学基金的资助下,系统研究了一种超冗余仿生象鼻机器人的单元体运动学逆解、工作空间、象鼻整体的实体样机设计选型和虚拟样机仿真等技术问题。论文取得了如下成果:
  1.以超冗余仿生象鼻机器人构成单元体——3UPS-PRU并联机构为研究对象,研究其位置逆解、速度逆解、加速度逆解和跃度逆解;并根据给定末端参考点的运动轨迹求出位置、速度、加速度和跃度随时间的变化曲线。
  2.研究象鼻机器人工作空间。基于象鼻机器人是由多个理论模型相同的单元体构成的特点,首先运用通过位置逆解验证的边界搜索法,分析单元体在固定位置下的姿态空间和固定姿态下的位置空间。根据给定的尺度参数和约束参数,求得单元体的工作空间。根据参考平面内象鼻机器人脊线的极限边界和象鼻机器人工作空间的求解流程,求出了象鼻机器人在空间内的工作空间。
  3.在前期理论分析的基础上,根据生物象鼻的运动特点和生理结构,提出仿生象鼻机器人的机械结构设计要求和设计方案。结合课题研究的实际需求对象鼻机器人进行结构设计,并在此基础上选取符合设计要求的各部分零件。得到最终的象鼻机器人机械结构设计方案和所有最终的零件选型。
  4.运用虚拟样机技术建立3UPS-PRU并联机构的三维模型,对其进行逆运动学仿真;运用得到的变化曲线与通过理论分析得到的变化曲线之间的对比,验证了单元体理论模型的正确性。根据象鼻机器人整体的三维模型,和实际的质量与尺寸,在 ANSYS中对象鼻机器人整体强度进行校核,并对每个单元体运用ADAMS进行受力校核。由所得数据可知,象鼻机器人整体强度和每个单元体的受力情况都满足要求。
[硕士论文] 陈佳瑜
计算机软件与理论 重庆理工大学 2017(学位年度)
摘要:生物信息学是一门结合了生物学、计算机科学、数学和化学等领域知识的交叉学科。随着科技的飞速发展,基因测序技术的研究取得了重大突破,人们逐渐开始对基因的功能和内在机理展开了探索研究。目前,每天都会产生海量的基因信息数据,生命科学的研究重点也从如何获取生物数据转移到了怎样对这些数据进行有效的分析上面。
  目前,对基因表达数据的分析处理,主要采用的方法是聚类。一般的聚类只能从基因矩阵的行或者列单一方向进行,这种方法只能找到基因表达数据矩阵中的全局信息。而大量有价值的生物学信息往往就隐藏在这些局部信息中,双向聚类是一种能有效解决该类问题的新兴手段。随着双向聚类得到越来越多的应用,现存算法的缺点与不足也逐渐暴露了出来,因此研究双向聚类问题是很有必要的。
  本文的研究目的是利用粒子群算法解决双向聚类问题,并通过一系列实验对比说明了结合粒子群优化的双向聚类算法的优越性。本文主要做的工作如下:
  (1)双向聚类算法是一种局部搜索算法,对于繁杂的基因数据矩阵,直接对其整体进行双向聚类,计算量大且聚类效果不理想。本文在粒子群算法的基础上,使用总体类间差异先对整个基因矩阵全局寻优,找出有一定相似性的基因子矩阵,再对其进行添加或删除行列的操作。使得到的双向聚类结构更加规整,避免了基因表达数据不均衡分类的情况。
  (2)双向聚类算法是一种多目标优化算法,FLOC算法作为经典双向聚类算法之一,却不能很好的同时优化多个目标。结合PSO算法,对FLOC算法的目标函数做出修改,提出了PSO-FLOC聚类算法,通过实验对比发现,PSO-FLOC算法对多目标优化问题表现更佳,并对算法中参数的取值进行了讨论。
  (3)在粒子群算法中,粒子只能沿着特定的轨迹搜索,从而不能保证以概率1收敛到全局最优,甚至不能收敛到局部最优。为了提高算法的全局搜索能力,结合具有量子行为的粒子群优化算法,形成了QPSO-FLOC聚类算法,并通过实验与PSO算法进行了分析比较,证明QPSO-FLOC算法能取得更好的聚类效果。
[硕士论文] 曾亚菲
计算机技术 湖南大学 2017(学位年度)
摘要:在真核生物中,存在两类重要的调控子:转录因子(Transcriptional Factor,TF)和microRNA(miRNA),分别在转录水平及转录后水平上调控靶基因的表达水平,这种调控作用遍及各种生物活动以及疾病发生过程。在此基础上,研究发现转录因子和miRNA存在着广泛的相互作用和合作调控,它们组成了一个复杂的共调控网络,共调控网络包含比单个网络更丰富的生物信息。研究共调控网络中的关键调控子是了解共调控网络调控机制的重要途径之一,因而如何识别网络中的关键调控子成为人们理解共调控网络进而揭开人类复杂疾病发生机理的关键。对此,本文提出了两种不同的共调控网络上的关键调控子识别算法,主要研究工作有:
  目前已存在的关键调控子识别算法较少考虑到TF和miRNA对基因的共调控作用,由此提出一种新的基于线性模型的共调控网络中关键调控子识别算法co-BOTLM。算法首先结合miRNA-gene、TF-gene和gene-gene作用关系数据和表达谱数据,构建线性模型预测已知疾病基因的表达,充分考虑了共调控网络中调控子之间的合作调控关系;然后从基因表达水平变化的角度来衡量调控子对已知疾病基因的影响值,从而更为准确的获取网络中miRNA、TF和gene的活动值;最后,根据已知疾病基因的预测表达值和真实表达值之间的差值最小化将线性模型转化为最优化问题,从而识别共调控网络中的关键调控子。实验表明,co-BOTLM实验结果充分证明实验所识别的调控子参与大量的生物过程,具有很重要的生物意义。
  为了减小算法的时间复杂度,进一步提高算法的识别精度,提出一种基于二元逻辑回归模型的共调控网络中关键调控子识别算法co-LRM。算法将关键调控子识别问题看成一个二分类问题,首先根据先验信息为各个调控子分配先验标签,构建二元逻辑回归模型;然后集成多个网络获取特征向量,求解该逻辑回归模型,计算每个调控子的后验概率;最后,根据后验概率对调控子进行打分排名,最终识别调控网络上的关键调控子。实验表明,co-LRM算法能有效识别具有显著性生物意义的关键调控子,同时,相较于co-BOTLM算法,算法co-LRM运行时间比较低。
[硕士论文] 黄聪
计算机科学与技术 湖南大学 2017(学位年度)
摘要:MicroRNA(miRNA)是一类非编码小 RNA分子,在基因表达过程中起重要调控作用。miRNA异常能直接或间接的引起所调控的靶基因的表达水平变化,进而导致相应的生物过程或调控通路失效。此外,miRNA及其靶基因与多种疾病的发生发展有关。识别miRNA靶基因不仅可以更好地理解miRNA功能和调控机制,还有助于疾病诊断和治疗。随着高通量技术的广泛应用,积累了大量的组学数据,为基于网络水平研究生物分子间的复杂关系提供了契机。因此,如何将多种类型的生物数据融合起来识别潜在的 miRNA-target关系是目前生物信息学研究的热点。本文提出两种基于异构网络的方法进行 miRNA靶基因关系预测。
  为有效利用经实验验证的 miRNA调控关系,提出基于网络的算法 RMLM和RMLMSe,利用元路径(meta-path)识别 miRNA-target关系。RMLM和 RMLMSe可同时识别单个或多种疾病中多个 miRNA的靶基因。RMLM中,首先利用关联性测量(Relatedness Measure, RM)计算基于不同元路径节点间的相似性;然后利用逻辑回归(logistic regression)和最大似然(MLE)计算不同元路径的权重。RMLMSe在 RMLM的基础上,融合了序列信息进一步提高算法性能。最后在四种实验数据集上对算法有效性进行验证。五折交叉验证的结果表明 RMLM和RMLMSe相较于对比算法有更高的 AUC值,且融合序列信息有助于提高miRNA-target预测性能;路径富集分析的结果也表明了 RMLM和 RMLMSe的有效性和合理性。
  针对 RMLM在小输出上性能较差的问题,提出一种基于双层网络的重启随机游走算法 GLRWR进行 miRNA靶基因关系预测。GLRWR首先利用经实验验证的miRNA-gene关联矩阵计算 miRNA对、gene对之间的高斯核相似性,然后将功能相似性矩阵和高斯核相似性矩阵融合起来得到更准确的相似性矩阵;考虑到gene-gene矩阵的稀疏性,利用 KATZ算法重新计算 gene-gene矩阵;接着,利用基于双层网络的重启随机游走进行 miRNA-target关系预测;最后,通过与其它算法在四种不同的数据集上的对比分析证实了算法 GLRWR的有效性。
[硕士论文] 向根
计算机技术 湖南大学 2017(学位年度)
摘要:随着新一代高通量测序技术的发展与应用,基因组学、转录组学等各种组学数据出现急剧增长。一方面,这些生物数据为从网络水平系统研究各种生物分子的功能提供了契机。另一方面,如何有效利用和集成各种组学数据并挖掘有价值生物信息仍是一大挑战。由miRNA、转录因子和目标基因组成的共调控网络是目前系统生物学研究的一个热点,而共调控网络中的功能模块作为细胞功能实现的主要载体,对理解生物体的分子机制和复杂疾病的发病原理具有重要意义。本文在考虑共调控网络拓扑特性的基础上,融合多种生物组学数据,提出了两种共调控网络中的功能模块识别方法。
  首先,考虑到目前调控网络中较少将转录因子视作调控靶基因的调控子,而现有功能模块识别算法不能对共调控网络中的转录因子及其调控关系进行有效识别的问题,提出一种新的基于非负矩阵分解的功能模块识别算法SNCoNMF。该方法首先采用联合非负矩阵分解策略集成miRNA、转录因子和基因的表达谱数据;接着在此基础上引入共调控网络正则化约束项:miRNA-gene、TF-gene调控关系和gene-gene相互作用网络,使得有边相连的因子分在同一个模块的概率更大;最后考虑到共调控网络以及非负矩阵的稀疏性,给目标函数加入稀疏惩罚项。与算法SNMNMF相比,所提方法在人类共调控网络中预测的共调控功能模块富集的转录因子更多,更能体现共调控功能模块中miRNA和转录因子的协同调控作用。
  其次,针对共调控网络比较稀疏,而且算法SNCoNMF识别的功能模块密度较小的问题,提出基于网络节点关联度的启发式算法NPWCN。首先利用LASSO方法对共调控网络进行加权,在构建带权网络时整合了miRNA、转录因子和基因的表达谱数据,提高了网络的可靠性。接着,鉴于关键调控子在共调控网络居于主导地位,采用线性规划识别带权共调控网络中的关键调控子,并将其作为种子节点。最后,以种子节点为核,以功能模块平均节点关联度为目标函数,进行邻居节点扩充,得到最终的功能模块。实验结果表明,算法NPWCN比另两种算法预测的共调控功能模块的密度更大,联系更为紧密,且具有较强的生物意义。
[硕士论文] 杨比特
生物信息学 解放军军事医学科学院;中国人民解放军军事医学科学院 2017(学位年度)
摘要:随着新一代测序技术(Next-Generation Sequencing,NGS)对整个测序领域带来重大革新,生物学各个领域的研究得益于NGS技术,能够快速、廉价地获得高通量层序数据。这一进步彻底改变了以往研究人员针对基础研究、临床研究的方法。同时,海量的数据使得新的存储方式和计算方法不断提出。从前以注重生化实验的研究方法已经慢慢转向注重后期数据分析。从前需要大量数据才能建立的组学分析以及多组学间的分析如今已成为可能,加快了人们对复杂生命现象机制的理解。
  数据的爆炸式增长,使得研究人员意识到,需要有新的知识组织形式帮助后人更好地理解当前的研究进展。同时,数据深层次的意义需要人们反复地对所积累的数据进行挖掘。因此,人类基因组计划(Human Genome Project,HGP)是生物学领域中一个重要的里程碑,该计划致力于读取人类基因组全部的碱基序列。然而,我们的目的不仅仅于此,更重要的是理解DNA序列中隐含的各种功能。随后,表观路线图计划(Roadmap Epigenomics Project)和DNA元件百科全书计划(Encyclopedia of DNA Elements Project,ENCODE)是人类进一步探索遗传奥秘的两大重要项目。这两个项目收集了大量来自于多组学的 DNase-Seq、RNA-Seq、ChIP-Seq等实验数据。生物学领域中某个组学的研究往往不是独立的,它仅仅反映了基因组单个方面的性质,然而多组学之间其实存在着非常紧密的联系。如何从一个系统的、整体的角度将不同组学的数据结合起来研究已成为当前生物信息学领域最重要的研究方法之一。
  通过过去40多年来的研究证明,在DNA序列上存在一系列的顺式调控序列(cis-regulatory sequences),如果某些基因突变发生在这些调控元件的区域,将导致最终表型的差异。其中,顺式调控元件(cis-regulatory elements)就是激活和维持转录发生的关键。深入理解顺式调控元件对于理解生命活动的机理、人类疾病发生的原因以及物种之间的保守性规律等非常重要。
  增强子(Enhancer)是一类远端顺式作用的DNA调控元件,它们在不同时间、不同细胞系的基因表达中起到了关键的调控作用。当前,理解增强子的特性、作用目标和调控活动是一个非常重要的研究领域,因为它间接地对发育、细胞鉴定、表达多样性、进化以及人类疾病起到关键作用。由于增强子元件没有共同的序列特征,而每个增强子的作用目标也无法精确定位,此外,增强子的调控作用具有很强的细胞/组织特异性。所以在哺乳类基因组中,如何准确识别增强子依然存在很大的挑战。
  近年来,得益于深度测序技术的发展,使得大量增强子预测的计算方法得以实现。这些预测方法可以利用该测序技术获得来自不同数据源的充足数据。依据数据的不同来源,可以大致将增强子识别算法从概念上分为3类。不同的计算方法依赖不同的数据集、输入特征或监督学习与非监督学习的组合。第一类使用生物信息学计算方法识别增强子利用的是表观遗传学数据,比如说从ChIP-seq数据中获取的组蛋白信息、DNase高敏位点(DHSs)或转录因子结合位点(TFBSs),这一类方法主要利用聚类或非监督学习的方式完成。第二类方法是将增强子识别问题抽象成一个利用有监督的机器学习方法来区分增强子区域和非增强子区域的二分类问题,比如说利用支持向量机(SVMs)、人工神经网络(ANNs)、决策树(DTs)、随机森林(RFs)、图论模型(PGMs)或是近年来最火的深度学习(DLs)。第三类利用的生物信息学方法是通过对增强子的高精度扫描,从而获得高质量的数据,以此来测试人类、小鼠、果蝇和酵母中的增强子。尽管这些增强子识别方法都起到了一定的效果,但是在生物信息学层面上依然存在很多技术问题,比如说类别不平衡、过拟合问题、参数难确定以及泛化能力差的问题。一个主要的困难是缺乏大量实验验证的人类或其他物种的增强子区域。因此,我们迫切需要基于有限的实验验证数据的计算方法来挖掘增强子序列中关于转录调控编码功能的规律。
  从2006年由Genoffery Hinton首次提出深度学习(Deep Learning)的概念,到2012年Hinton团队的卷积神经网络(Convolutional Neural Network)模型在ImageNet图像识别比赛上大杀四方,再到2016年Alpha Go程序完胜人类围棋高手,这三个事件彻底掀起了全球对人工智能技术的研究热潮。得益于近年来高性能CPU、GPU、FPGA等计算硬件的发展,深度学习高复杂度复杂的计算问题得以解决。同时,凭借着深度学习算法在提取不同层次的抽象特征、学习特征上的强大能力,配合当前海量的研究数据,它的性能已经远远超越传统的机器学习算法。深度学习已经在图像识别、自然语言处理、语音识别、量化交易等众多领域有着广泛应用。当然,深度学习算法也拓宽了生物医学领域的研究方法,近年来有不少如医学影像处理、药物靶标筛选、基因突变位点评估等问题通过深度学习方法获得不错的效果,并且相继发表了研究成果。
  在本文中,我们详细分析了顺式调控元件的研究现状,重点关注了增强子调控元件的相关的各种研究方法。随后,我们描述了使用机器学习、深度学习解决相关问题的一般方法以及它们之间的区别和优劣。通过分析利用机器学习、深度学习识别增强子调控元件的各类方法,我们发现其中存在着准确率低、泛化能力差、受限于数据来源等问题。因此,我们构建了一个基于深度学习的混合模型,起名为BiRen,它结合了卷积神经网络(CNN)对于序列数据的表示能力以及能够较好处理DNA序列长距离依赖问题的GRU单元双向循环神经网络(BRNN),通过这个模型,我们可以只依赖DNA序列本身就能准确识别增强子。BiRen的训练数据来自VISTA增强子数据库的有限的实验验证数据,数据库中增强子的增强效应在转基因小鼠上完成了验证。我们直接使用原始DNA序列来训练BiRen,与另外两个基于motifs或k-mers的最新的基于序列特征的模型比较,BiRen具有更高的准确率,并且能够有效避免噪声数据的干扰,同时在不同细胞系中也具有更好的泛化能力。我们的BiRen模型能够帮助研究人员对增强子序列带来更深层次的理解。
[硕士论文] 何建争
仪器科学与技术 中国科学技术大学 2017(学位年度)
摘要:视觉定位作为三维测量技术的一种重要手段,已广泛应用在工业检测、医学诊疗、影视特效和安防监控等领域。随着应用领域的拓展,对视觉系统的大视场、小型化和高精度等方面的要求越来越高。自然界中很多节肢动物的复眼以其结构紧凑、大视场和对物体运动高度敏感性等优势日益受到视觉测量领域的关注。因此本课题组以自然复眼为基础,设计制作了一种新型仿生复眼定位装置。
  本论文为实现复眼的标定与定位,从研制的复眼系统特征出发,观测分析了系统成像的畸变特性,提出了一种基于虚拟双球面的标定方案,对标定和定位过程的关键问题进行了探究,完成了对空间物体对象的三维定位,并对定位精度作出了评估。具体的研究内容如下:(1)对仿生复眼装置的机械结构、光学设计和图像采集系统等方面进行了详细描述,通过实验观测了不同子眼成像通道的畸变情况,指出了系统畸变特点,明确了系统标定对该仿生复眼系统的重要性。在调研多种非线性相机标定方法基础上,针对复眼大视场、子眼较多和畸变复杂等诸多特点,探讨了复眼系统的标定方法,提出基于虚拟双球面的标定方案,该方法通过构建图像点和对应入射光线的映射关系来实现标定。建立了标定数学模型,搭建了主要由单LED、二维转台、一维导轨和自动控制软件组成的标定平台。
  (2)从标定原理出发,合理规划了标定步骤,首先对标定平台进行了合理调整;接着针对光斑图像特征,确定了光斑中心提取步骤与算法;为保证空间靶标的均匀性分布,针对转台转动特点,引入正二十面体细分方案,合理规划了靶点位置;对多通道同时成像于同一图像面的状况,将转台转动角度和子眼位置纳入同一极坐标系中,探索了光斑与子眼之间的匹配方法;为建立非线性映射关系,在对三种映射方法分析对比中选择了最适合本系统的方法;最后对复眼开展了标定实验,建立了图像点和入射光线的非线性映射关系。
  (3)从双目视觉和系统标定原理出发,探讨了复眼定位理论,并以此为基础,研究了根据光斑点反求成像通道的方法。使用复眼对空间三维点进行了测量,结果表明,标定后的复眼装置在60°视场内的目标相对定位误差优于0.5%,定位角度均方根误差约为1.96mrad。最后对简单面形进行了测量重构,表明了复眼的实际应用价值。
[硕士论文] 张伟
机械工程 重庆大学 2017(学位年度)
摘要:圆筛藻作为一种典型硅藻,因其细胞壳壁具有精致的多级孔状结构而吸引仿生学研究者的关注。研究发现,圆筛藻壳壁这种精致的多级孔状结构具有良好的生物学、力学和摩擦学等性能,但对该结构声学性能的研究还没有发现。本论文研究了圆筛藻多级孔状结构的声学性能,并将该结构应用到水润滑轴承上,研究水润滑复合织构轴承的声学特性,这对降低水润滑轴承噪声有重要意义。
  本文立足国家自然科学基金面上项目“仿生硅藻典型壳壁结构的水润滑轴承摩擦学性能研究”(项目编号51375509),主要研究内容如下:
  论文首先建立了圆筛藻双层孔状结构基本单元的海水模型,应用ANSYS Workbench14.5中的Fluent模块分析了圆筛藻壳壁与海水接触面以及海水内部的声功率级水平,并将该结构下的海水声功率级水平与单层孔状结构以及无孔结构进行了比较。数值结果表明:圆筛藻壳壁双层孔状结构和单层孔状结构都能够降低与海水接触面以及海水内部的声功率级,圆筛藻双层孔状结构表现出更明显的降噪能力。
  然后,在上述对圆筛藻双层孔状结构声学性能研究的基础上,将类似的复合织构应用在水润滑轴承内表面,对该复合织构水润滑轴承的声学性能进行了研究。结果表明:相较于单层织构,复合织构能够更有效地降低水润滑轴承噪声的声功率级;并且复合织构位于最小轴承间隙时,其降噪效果更佳;轴承偏心率的增大使轴承最小间隙及附近的声功率级升高,最大间隙及附近的声功率降低;长径比的增大使光滑轴承的平均声功率级降低,单层和复合织构轴承的平均声功率级先升高后降低;转速的增大使轴承的平均声功率级明显升高。
  进一步,基于多元线性回归分析方法和最小二乘理论,得到了水润滑复合织构轴承平均声功率级、承载力和摩擦系数与复合织构尺寸关系的拟合函数。然后,通过最优化方法对复合织构轴承的平均声功率级、承载力和摩擦系数进行了多目标优化,得到了承载力较大而平均声功率级和摩擦系数较小的复合织构最优尺寸。
  最后,通过实验测试了复合织构水润滑轴承噪声。实验结果表明,在相同条件下,复合织构轴承整体噪声水平低于对应的单层织构轴承和光滑轴承,且随转速的增大而提高。同时,复合织构位于轴承最小间隙时,降噪效果最好。实验结果与仿真结果整体吻合较好,从而验证了上述仿真结论的正确性。
[博士论文] 杨琴
化学 湖南大学 2017(学位年度)
摘要:本文作者对生物信息学研究以及多维代谢组学数据分析领域中的一些难点问题进行深入研究后,提出了多种化学计量学解决策略,并应用于实际体系的研究。本论文的内容主要涉及到以下几个方面:
  1.细胞中大部分蛋白质都会同时定位于多个亚细胞器中。分离蛋白质的混合亚细胞定位分布模式对理解蛋白质功能和其它重要的细胞过程十分关键。对此,我们提出一种非线性建模技术首次用于蛋白质亚细胞定位模式分离。变量加权支持向量机(variable-weighted support vector machine,VW-SVM)是一种稳健的建模技术,能够实现灵活合理的变量筛选。全局随机优化技术,粒子群优化算法(particle swarm optimization algorithm,PSO),对变量加权值以及支持向量机SVM模型参数进行协同调节和优化,使VW-SVM成为一种无参数调节的自适应建模方法。非线性VW-SVM建模方法对大规模荧光蛋白标记图像实现亚细胞定位模式自动分离。结果表明,基于粒子群 PSO优化的 VW-SVM能够改变建模变量尺度而有效表征亚细胞定位模式。相比传统支持向量机SVM和现有的模式分离方法,非线性VW-SVM显著改善多位点蛋白质亚细胞定位模式分离性能。
  2.现代生物成像技术的发展使充分展示多位点蛋白质同时跨越不同亚细胞器的定位分布成为可能。量化蛋白质在每个亚细胞器中的分布比例有助于理解蛋白质的功能和细胞机理。然而,成像质量会受特定细胞类型影响,导致与蛋白质亚细胞定位模式相关的信息丢失。为了提高模式识别能力,我们提出了一种新的基于纹理特征描述符的变量加权建模方法。该方法主要提取图像中感兴趣子区域的空间结构特征,有效表征多位点蛋白质亚细胞定位分布模式。另外,为了实现模型自动化,粒子群算法(PSO)用于优化变量权值和模型结构参数。这样一种无参数调节的计算模型,分别结合线性偏最小二乘 PLS和非线性支持向量机 SVM两种方法,对细胞荧光显微图像集进行模式分离研究。结果表明,提出的新计算模型采用空间结构描述符有效表征蛋白质亚细胞定位分布,大大提高了分离精度,在蛋白质的定位分布以及相关研究中显示了巨大的潜力。
  3.核酸适配体在科学研究、临床医学以及工业中展示了巨大的潜力。实现这些应用的关键步骤是能够筛选出与感兴趣靶目标具有高亲和力和强特异性的适配体。为了有助于指数富集配体系统进化(systematic evolution of ligands by exponential enrichment,SELEX)实验筛选适配体,我们提出了一种新的核酸序列编码方法,通过重点分析二级结构中环形子结构,实现候选适配体的结构特征提取。由于环形结构与适配体和靶目标之间的结合亲和力密切相关,因此直接对序列的中心环形子结构编码能够有效表征与适配体亲和力相关的特征。另外,在新的核酸序列编码方法中,序列的核酸组成成分也作为变量以减少序列特征描述的相似性。采用人肝癌细胞为靶目标,进行高亲和力适配体的识别研究,以验证提出的方法对序列编码的可行性。结果表明,与现有的序列编码方法相比,新提出的编码方法能够显著提升各种模式识别模型的性能。同时,我们还设计了一组新的非 SELEX实验筛选的适配体序列,采用提出的编码方法结合支持向量机 SVM模型进行亲和力预测。5条与SELEX实验筛选的最高亲和力相当的序列的获得,更进一步地证明了新提出的核酸序列编码方法的巨大潜力,以简洁、省时、低成本的计算方式有效地辅助高性能适配体设计和优化,促进与适配体相关的研究和应用发展。
  4.基于 GC-MS的尿液代谢组学分析结合化学计量学方法用于新生儿代谢缺陷(inborn errors of metabolism,IEMs)的早期诊断。新生儿代谢缺陷IEMs是一种遗传疾病,会导致严重的精神和身体损伤,甚至是婴儿猝死。正交偏最小二乘判别分析(orthogonal partial least squares discriminant analysis,OPLS-DA)是一种有效的多元统计方法,广泛用于代谢组学数据分析。然而,代谢组学数据不断增长的规模和复杂度通常会降低正交偏最小二乘判别分析OPLS-DA模型的性能。为此,我们提出了一种新的算法HPSO-OPLSDA,利用混合粒子群算法(hybrid particle swarm optimization,HPSO)同时筛选最优变量子集以及相关的变量权值,同时确定最合适的正交成分个数,以提升OPLS-DA模型的性能。对两种新生儿代谢缺陷IEMs疾病,甲基丙二酸血症(methylmalonic acidemia,MMA)和异戊酸血症(isovaleric acidemia,IVA)进行研究,结果表明相比传统的 OPLS-DA模型, HPSO-OPLSDA新算法显著提升疾病婴儿尿液样本与正常婴儿尿液样本的鉴别能力。并且,HPSO-OPLSDA方法筛选的标志性代谢物有助于新生儿代谢缺陷IEMs的临床诊断,其中甲基丙二酸血症 MMA的标志物为甲基丙二酸、甲基枸橼酸和3-羟基丙酸,异戊酸血症 IVA的标志物为异戊酸。
  5.代谢数据复杂度的不断增加使得化学计量学成为提取相关重要信息不可或缺的工具。正交偏最小二乘判别分析(OPLS-DA)是目前代谢组学数据分析最有效方法之一。但是,OPLS-DA的实际建模性能通常因过多的变量和过少的样本而受到影响。为了改善这种情况,混合粒子群算法(HPSO)自动配置 OPLS-DA的结构,同时确定合适的样本权值、筛选最优变量子集,以及最好的正交成分个数,形成新算法以提高OPLS-DA的建模性能。结合基于气相色谱-质谱联用GC-MS的代谢组学,新算法用于识别新生儿代谢缺陷(IEMs)患者与健康婴儿。结果表明,相比传统的OPLS-DA,新算法不仅显著提高识别率,而且确定了有助于诊断甲基丙二酸血症(methylmalonic acidemia,MMA)和异戊酸血症(isovaleric acidemia, IVA)的潜在标志性代谢物,包含甲基丙二酸、甲基枸橼酸、3-羟基丙酸和异戊酸。
[硕士论文] 金磊
机械工程 汕头大学 2017(学位年度)
摘要:本文密切结合了一种超冗余仿生象鼻机器人的研发需要,系统的研究了该机器人运动学与空间轨迹规划、控制系统的开发等相关理论设计方法,取得如下成果:
  基于微分几何的思想,利用模态基函数和模态参数构造曲线的模态方程,并用其描述超冗余仿生象鼻机器人的整体形态。使用雅可比迭代算法搜索模态参数,让模态曲线末端的位姿与机器人末端期望的位姿相同。建立运动支链杆长的参数方程和约束不等式,采用二分法和改进的迭代算法,搜索出满足约束条件的并联模块末端位姿。采用矢量法建立3UPS-PRU并联模块的运动学模型,根据搜索出的并联模块末端位姿,求解出各驱动关节的位置,从而完成超冗余仿生象鼻机器人的位置逆解。
  利用3UPS-PRU并联模块的运动学模型,建立了速度、加速度和跃度方程。结合并联模块的位置逆解算法,在并联模块末端的位姿轨迹空间均采用七次多项式插补的方法,保证了并联模块末端位姿运动的同步和各驱动关节的协调运动。通过Matlab仿真计算检验,该空间轨迹规划方法有效消除了超冗余仿生象鼻机器人运动的柔性冲击和刚性冲击,提高了超冗余仿生象鼻机器人的运动的平稳性。
  采用以“工控机+多运动控制器”为核心的开放式控制结构,采用模块化设计,将硬件系统划分为工控机与运动控制模块、伺服驱动模块、控制器与驱动器接口模块、电气主电路模块等主要模块。对超冗余仿生象鼻机器人的性能需求进行分析,选择出合适型号的硬件,完成硬件平台的搭建工作。
  基于功能需求分析,采用层级化、模块化的设计思路,将超冗余仿生象鼻机器人的控制软件系统划分为应用层、功能层、执行层和驱动层等四个层级,包含轨迹规划模块、运动学计算模块、3D仿真模块等等多个模块,构建出控制系统的软件总体架构。对软件系统的系统初始化功能、回零功能、点位运动功能、轨迹跟踪功能、微动调整功能等核心功能进行了分析和设计。通过调用固高控制器的开放式运动控制接口API函数,实现了超冗余仿生象鼻机器人的多轴同步运动,通过对超冗余仿生象鼻机器人结构简化,实现了三维在线仿真。最后在VisualStudio2013的开发环境下,采用C#开发语言,借助WPF用户界面框架,开发出控制系统软件。
[硕士论文] 黎健源
机械电子工程 汕头大学 2017(学位年度)
摘要:本文把生物象鼻和并联机构结合起来,在国家自然科学基金的资助下,对超冗余仿生象鼻机器人进行结构设计、位置逆解、虚拟样机仿真分析和物理样机搭建。论文取得了如下成果:
  以超冗余仿生象鼻机器人为对象,建立其运动学模型。采用脊线模态法,把机器人中各单元体相互连接的中间支链用空间曲线来代替,把各单元体的末端动平台的中心点拟合到脊线上,从而得到各单元体的末端动平台的中心点的位置和姿态。再对单元体进行位置逆解,求出超冗余仿生象鼻机器人的所有驱动关节的位置变量。
  通过分析生物体象鼻外部形状和运动特征,以并联机构为单元体模块,设计一种超冗余仿生象鼻机器人。设计过程中,首先对超冗余仿生象鼻机器人提出设计方案,考虑工程实际确定机器人的驱动部件,分析单元体的结构布局以及各单元体之间的连接方式,对机器人结构进行细节设计,包括动静、平台和支链安装块的设计,对关节运动副进行选型,最终构建出超冗余仿生象鼻机器人的最终设计方案。
  运用虚拟样机技术,把在SolidWorks软件中创建的超冗余仿生象鼻机器人的三维模型导入到ADAMS软件中,添加各种关节约束和质量属性,对单元体和整体机器人进行运动学和动力学分析,验证机器人中驱动部件的选型正确性。再把三维模型导入到ANSYS有限元分析软件中,分析机器人的静刚度,包括应力、应变和变形量,保证机器人的设计能够满足要求,为机器人真实样机的搭建提供有力的证据。
  对超冗余仿生象鼻机器人进行选材与加工,首先对各电动缸进行调试和联合运行,再单独安装每个单元体并调试。结合生物象鼻的外观,设计支撑架把超冗余仿生象鼻机器人由上至下吊挂安装,最终使机器人按照给定轨迹运行,实现生物象鼻的运动特性。
[硕士论文] 卢沛良
工程 青海师范大学 2017(学位年度)
摘要:生物信息学(bioinformatics)是利用应用数学、信息学、统计学和计算机科学的方法研究生物学的一门新兴的交叉学科。随着大数据时代的来临,生物大数据也逐渐成为生物信息学的重要研究依据。通过可视化技术的分析,让海量的生物数据研究变得容易理解,数据之间的关联更加清晰。本文也从生物大数据技术本身的特点进行分析,结合当前高原高血压的实例数据,基于数据挖掘的整个研究流程,形成可视化研究对比。当然,大数据技术还在不断发展,其中面临的机遇和挑战也是巨大的,在过去的10年中,以基因组学、医学遗传学和神经信息学等为代表的生命科学各研究领域,以前所未有的增长趋势,积累了海量的数据信息。这些数据类型复杂、数量庞大,其中蕴含的价值更是不可估量。通过传统的处理手段,难以理清海量原始数据中错综复杂的关联信息。而数据可视化的效果,可以为数据中信息展示提供一种有效的途径。
  本文针对生物大数据异构、庞大、复杂性强的特点,着重分析了基于可视化需求的生物数据处理工作。通过NCBI数据库获得的原发性高原高血压的物种间比较和高原、平原高血压相比较的两组Data.set数据包,本数据包内含有多种生物数据信息。针对其数据特点运用错误发现率的算法及 R语言中R-bioconductor工具的Limma包对生物数据进归一化处理,以达到差异基因分析和基因注释信息的可视化的需求,从而进行更好的效果展示。针对处理后的数据特点,本文选取了应用错误发现率的SAM算法对数据实例进行可视化分析,并运用 R语言中的R-bioconductor工具的ggplot2包及基于 Javascript的E-charts工具进行差异基因分析的火山图和注释基因关系图的可视化效果展示。
  基于高原高血压的实例验证,本文提出的可视化方法取得了良好的实验效果,并验证了本文提出和设计的数据处理方法的合理性和有效性。而针对生物大数据的差异基因分析和注释信息相关联的可视化展示,将有利于科研人员对复杂数据进行多角度观察并获取有效信息。
[硕士论文] 周子康
计算机技术 山东大学 2017(学位年度)
摘要:基因组测序技术为生物学研究提供了数据支持,从而有力的推动了对生命活动规律的理解和认识。宏基因组学是一门新兴的不依赖于实验室培养直接从环境中提取微生物群落的DNA进行研究的学科,这种大规模的基因组学技术实现了对不同环境中微生物的深入研究。然而受限于测序技术,测序仪每次只能读出基因组上一个短片段,而不是一次读出完整的基因组序列。因此,从短片段中恢复出多个物种的完整基因组的序列拼接是宏基因组学的一个基本问题。目前计算机技术方面,对宏基因组序列拼接算法的研究还仍然处于初步阶段,大多数序列拼接工作依然利用单基因组拼接软件来完成,然而绝大部分单基因组序列拼接在宏基因组上数据上存在很大的局限性。因此,本文针对宏基因组的序列拼接算法展开了一系列的工作并将之实现。
  本文的主要工作是在我们开发的单基因组拼接软件ARCS的基础上,加入了新的模块来处理针对宏基因组的数据,提出并实现一个有效的宏基因组序列拼接软件Meta-ARCS。我们设计了新的针对第二代数据的序列拼接的拆解de Bruijn图形成contigs算法。主要是估计压缩边的序列重数,挑选unique压缩边,利用pair-kmer插入距离信息,并采用线性规划技术求得unique压缩边的最优排布,最终形成更长的contigs和scaffolds。针对这些填充了间隙的scaffolds,我们除去间隙,获得正确率更高的却更短的contigs,利用coverage信息将contigs进行binning操作,每个bin里的contigs都属于单一的物种。
  在真实数据集和模拟数据集上的实验表明:同已有拼接软件做系统比较,Meta-ARCS取得了比较好的结果。
[博士论文] 谢显华
统计学 湘潭大学 2017(学位年度)
摘要:传统的构建系统发育树的方法依赖于序列比对。但是序列比对的方法有许多不足:共有基因的选择具有一定的随意性;核苷酸和氨基酸打分矩阵没有统一的标准;对于进化距离较远的序列的比对可能失效;计算复杂度较高,特别是对于多重序列的最优比对计算仍然是一个 NP难题。在基因组时代,人们希望能利用物种的全基因组序列信息重构系统发育树。内核苷酸距离是 DNA数值化表示的一种方法,本文受内核苷酸距离思想的启示,提出内氨基酸距离和新的内核苷酸距离,并将其应用于生物系统发育树和宏基因组的研究中。本文主要内容如下:
  第一,我们定义内氨基酸距离并将其应用于分子系统发育树的构建中,主要集中在利用全蛋白质组基于内氨基酸距离方法进行系统发育分析。我们首先将全蛋白质组转换为内氨基酸距离向量,并称其为观测内氨基酸距离向量;然后,提出利用条件几何分布列(由氨基酸随机且相互独立产生的序列的内氨基酸距离的分布)作为参考分布列;最后,计算观测分布和参考分布之间的相对偏差,从而用其定义反映不同物种全蛋白质组之间系统发育关系的距离度量。我们将该方法命名为“内氨基酸距离和条件几何分布列”(inter-amino-acid distances and conditional geometric distribution profiles,IAGDP)法。我们将该方法应用于2个数据集:数据集1为已有文献的标准测试数据集,它包含29个物种的基因组数据;数据集2包含67个哺乳动物基因组数据。数据计算结果表明:我们的方法是有效和高效率的。
  第二,我们将内氨基酸距离的思想推广到核苷酸序列中来,提出核苷酸序列的内核苷酸距离,并将其作为宏基因组数据的一种新的信号而用于宏基因组可视化研究。我们首先将基因组片段序列转换为内核苷酸距离向量;然后,我们对这些片段的距离向量作主成分分析,得出主成分;最后,我们利用这些主成分根据片段物种来源画出2维散点图。我们将此方法称为“内核苷酸距离列”(inter-nucleotide distances profiles,INP)法。我们将此方法应用于3个已有文献的标准测试数据集:数据集1包含5个基因组;数据集2包含8个基因组;数据集3包含10个基因组。结果表明,内核苷酸距离列法能以一种更简单、高效率且几乎不依赖于参数选择的方式从DNA 序列中提取特征。因此,我们提出的INP方法是一种好的,高效率和可替代的宏基因组数据可视化方法之一。
  (已选择0条) 清除
公   告

北京万方数据股份有限公司在天猫、京东开具唯一官方授权的直营店铺:

1、天猫--万方数据教育专营店

2、京东--万方数据官方旗舰店

敬请广大用户关注、支持!查看详情

手机版

万方数据知识服务平台 扫码关注微信公众号

学术圈
实名学术社交
订阅
收藏
快速查看收藏过的文献
客服
服务
回到
顶部