绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友
万方知识发现服务平台
获取范围
  • 1 / 65
  (已选择0条) 清除 结果分析
找到 1290 条结果
[硕士论文] 许鸿飞
计算机技术 郑州大学 2018(学位年度)
摘要:在全球化的大背景下,世界各地之间的沟通日益频繁,翻译是人们克服语言障碍的最主要手段。然而翻译人员需要学习大量的语言、传统文化知识,人工翻译的成本较高,从而提出利用机器来完成翻译,在研究中产生了大量基于规则、基于统计以及基于神经网络的机器翻译算法。
  随着语料资源的积累和计算能力的逐步提高,端到端的神经机器翻译模型产生的译文与人工翻译的译文质量越来越接近。但是,从学术研究报告和企业的测评报告中可以发现,汉语到英文的翻译任务表现明显差于一些印欧语系语言到英文的翻译任务,本文认为,造成这种现象的原因之一是汉语通常依靠虚词或词序来完成在其它语言中通过形态或句法所表达的语法意义。
  本文基于现代汉语虚词用法知识库(CFKB,Chinese Function word Knowledge Base),对现代汉语虚词用法的自动识别进行尝试,并研究汉语虚词用法在汉英机器翻译中的应用,主要研究内容包括:
  (1)利用条件随机场(CRF,Conditional Random Field)对汉语虚词用法进行自动识别,并提出基于深度学习的汉语虚词用法识别模型。利用基于门循环单元(GRU,Gated Recurrent Unit)的模型自动地从序列的两侧提取与任务有关的信息,完成虚词用法自动识别。实验表明,基于深度学习的汉语虚词用法识别模型在部分常用虚词的用法自动识别任务中准确率可以在条件随机场模型的基础上取得2个百分点以上的F1值提升。
  (2)在虚词用法自动识别的基础上,对自动识别的虚词用法在神经机器翻译中的应用展开初步尝试。分别通过“拼接”、“划分”和“区分”三种方式将虚词用法信息融入神经机器翻译模型。实验结果表明,通过“拼接”方式加入虚词“的”的用法信息可以取得平均0.67个BLEU值的提升,通过“区分”方式加入虚词“的”的用法使得平滑对齐错误率降低了1.42个百分点。证明部分常用虚词对机器翻译的积极影响,以及本文方法的有效性。
  (3)对融入虚词用法特征的神经机器翻译的线上部署进行初步探索,完成融入虚词用法信息的神经机器翻译系统的开发。
[硕士论文] 樊文婷
计算机科学与技术 内蒙古大学 2018(学位年度)
摘要:随着深度学习的快速发展,基于神经网络的蒙汉机器翻译质量也有很大改善。本文针对机器翻译技术,对蒙汉机器翻译展开研究。由于蒙汉双语平行语料资源相对匮乏,导致注意力权值、词向量的学习受到限制,无法直接将其它翻译任务上的翻译方法应用到蒙汉翻译中。针对上述问题,本文提出了融合先验信息的蒙汉神经网络机器翻译模型,利用先验信息丰富模型学习的可利用特征,提高模型的翻译性能。
  首先,提出基于蒙汉机器翻译的指导对齐模型。通过对目标语言句子重排序,以减少汉文和蒙古文句子中存在的语序差异,从而提高基于统计方法的词对齐的准确率,之后利用统计方法获得的词对齐指导翻译模型的训练。此外,提出基于语义相似度的集外词替换方法,利用词向量计算单词与单词之间的相似度,将训练语料中的集外词用目标词典中的单词替换。最后是预训练模型,把利用大规模单语语料训练得到的词向量作为翻译模型的初始词向量,且在词向量中融入词性特征。
  实验结果表明,将指导对齐模型应用在神经网络蒙汉翻译任务上相比于基线系统译文有明显提升,BLEU值提升到了31.98,相比于基线系统BLEU值提升了2.29。实验证明,基于语义相似度的集外词替换方法可以减小翻译模型的计算复杂度。加入词向量预训练模型后,翻译模型的译文质量相比于基线系统BLEU值提升了2.68。
[硕士论文] 李金廷
软件工程 内蒙古大学 2018(学位年度)
摘要:近年来,随着人工智能领域的技术革新,机器翻译技术的研究步伐也不断向前迈进,神经机器翻译在蒙汉双语平行语料上取得了良好的效果。但是,由于蒙古文构词形态复杂,语料规模较小,使得神经网络不能充分学习到蒙古文语言特征。本文结合蒙古文语言特点和蒙汉机器翻译研究难点,提出将统计机器翻译的离散词概率信息以及外部词典计算的离散词概率信息融合到神经机器翻译来提高蒙汉机器翻译的译文质量。
  首先,针对语料的数据稀疏问题,本文对形态复杂的蒙古文语料进行形态分析,重点对格的附加成分进行分析和处理。通过三种不同的方法进行格处理,并且根据不同模型的性质选择不同的格处理方法。通过实验证明,在不同的模型中选择不同的蒙古文形态分析方法对语料进行处理可以提升蒙汉机器翻译的译文质量。其次,针对神经机器翻译很难准确的翻译低频词的问题,本文在前人的工作基础之上提出一种将离散词概率融合到蒙汉神经机器翻译的方法来缓解低频词翻译译文质量较差的问题。最后,针对如何获取和利用外部资源(如词典等资源)来提高翻译译文的质量的问题,本文在现有资源的基础上整理校正了一定规模的蒙汉双语词典,并且将蒙汉双语词典信息贡献给蒙汉神经机器翻译从而提高机器翻译译文的质量。
  最终的神经机器翻译实验结果表明,融合统计机器翻译离散词概率的译文的BLEU值达到34.53,格处理使译文的BLEU值达到35.72,融合混合离散词概率(加入词典信息)的译文的BLEU值也有所提升,证明了本文提出的方法能够有效地解决蒙汉机器翻译的问题。
[硕士论文] 王洪彬
软件工程 内蒙古大学 2018(学位年度)
摘要:随着深度学习技术的发展,神经机器翻译已经取得超过其它翻译技术的效果,但仍存在很多问题。在神经机器翻译中训练语料有限,不可避免会产生数据稀疏问题。蒙汉平行语料贫乏,因此蒙汉机器翻译数据稀疏问题会更严重。在神经机器翻译模型中,词切分技术已经在西方语言神经机器翻译中得到广泛应用,并取得很好的效果。在本文中研究多种蒙古文切分粒度下神经机器翻译模型的翻译效果。
  本文对比了蒙古文词、蒙古文子词和蒙古文字符在循环神经机器翻译、卷积神经机器翻译和Transformer翻译模型中的翻译表现。实验结果表明在三种机器翻译模型中,蒙古文子词表现最好,蒙古文词次之,蒙古文字符表现最差。可以说明一定程度的切分可以提高机器翻译效果。本文分析了蒙古文字符翻译的特点,并根据特点改进字符级翻译模型。第一个特点,蒙古文词切分为字符后词与词之间的边界消失,需要使模型优先学习同一词切分出的字符序列。第二个特点,本文在研究中发现,字符级翻译模型的编码器的输出中,有很多输出对解码器影响很小,因此考虑需要对编码器输出进行过滤。本文针对以上特点,提出两种改进方法。第一种,增加卷积层,这样可以优先学习字符序列局部信息。第二种,增加线性门控单元,可以用来过滤卷积层的输出。
  经过改进后的Transformer字符级翻译模型实验结果取得41.07BLEU,比改进前字符级翻译模型提高6.64BLEU,比子词级翻译模型提高3.84BLEU,比词级翻译模型提高5.21BLEU。改进后的字符级循环神经机器翻译模型翻译效果提高3.54BLEU。
[硕士论文] 李姝彦
外国语言学及应用语言学 黑龙江大学 2018(学位年度)
摘要:本论文主要用顺应论研究模糊语如何在外交语言中的应用。根据扎德(Zadeh)在1965年提的了模糊集合论(Fuzzy Sets Theory)中的理论分析指出,语言会受到思维的影响,而思维会受客观事物的存在的状态的影响。在客观事物本身界限不明,思维界定不明时,语言也必定会出现表述不准确的模糊语。然而,由于外交的交际目的地多样化,精确的语言不能完全适用于外交场合,所以越来越多的外交场合,尤其是例行记者会中,大量的运用模糊语做为外交语言。外交中对模糊语使用正是运用了其本身的语用特征,达成了外交目的。
  本文以维索尔伦(Verschueren)的顺应论为框架,以例行记者会的问答发言做为语料,采用定量研究的方法,分析了外交语言中的模糊语的使用。通过模糊语言在外交语言中的结构顺应形式,分析模糊语在顺应论三个语境条件(物理世界、心理世界和社交世界)下使用的合理性。最后从八种语用角度出发,对外交语言中的模糊现象所体现的功能进行探析和研究,为外交发言人能够恰当使用模糊语做出理论依据。希望的研究能为推动模糊语言学及语用学的发展做出一些努力。
[硕士论文] 李少童
计算机科学与技术 北京交通大学 2018(学位年度)
摘要:机器翻译是利用计算机技术实现源语言到目标语言的转换,是自然语言处理研究领域中最具挑战性的综合性前沿课题之一,有十分重要的研究和应用价值。
  端到端神经机器翻译是近几年来流行的一种机器翻译方法。不同于统计机器翻译的模块化结构,神经机器翻译通过建立一个可以同时学习和调整所有参数的神经网络,实现端到端的神经机器翻译模型。目前,尽管神经机器翻译已经占据机器翻译的主导地位,但仍有许多问题亟待解决,其中,由于词表规模受限所导致的集外词问题尤其重要。因此,如何有效处理神经机器翻译中的集外词,改善翻译性能,是目前研究的一个难点和热点。集外词不仅影响模型获得源语言句子的语义完整性,而且在语义和结构层面给目标语言生成带来不利影响。而传统的基于词向量相似度的集外词处理方法存在难以处理低频词和多义词、以及对生语料适应性差等问题。另一方面,如何在神经机器翻译中融合语义词典等外部知识库,提高翻译精度,也成为一项具有挑战意义的研究任务。
  为了解决上述问题,本文创新性地以在神经机器翻译中融合外部知识库为切入点,将语义概念应用于集外词处理中。本文的主要创新点和贡献如下:
  1.在神经机器翻译中引入了外部语义词典,尝试以语义概念解决集外词问题,利用外部人工知识库提升集外词替换的准确度,不仅能够改善集外词的翻译,同时提高了存在集外词情况下整个译文的质量。
  2.提出了一种融合单语语义概念的集外词处理方法。在翻译解码阶段利用WordNet的语义概念和单语语言模型对集外词进行替换,改善翻译效果。实验表明提高了翻译质量。
  3.提出了一种融合双语语义概念的集外词处理方法。在模型训练阶段利用HowNet的语义概念和双语语言模型对训练语料的集外词对进行替换,提高翻译模型的参数质量;在翻译解码阶段利用HowNet的语义概念和单语语言模型对集外词进行替换,改善翻译效果。实验表明提高了翻译质量。
  本文成功地在神经机器翻译中引入了外部语义词典中的语义概念以解决集外词问题,英汉翻译方向的实验结果表明,我们提出的集外词处理方法不仅能够显著提升神经机器翻译的翻译效果,与传统的集外词处理方法相比也有一定优势。
[博士论文] 武静
计算机应用技术 内蒙古大学 2017(学位年度)
摘要:机器翻译近年来蓬勃发展,取得了令人瞩目的研究成果,稀少资源语言和少数民族语言的机器翻译任务也获得了更多的关注。蒙古语是一个广泛使用的跨多国、多地区的语言,蒙古语言文字是内蒙古自治区的官方语言文字。蒙汉机器翻译研究一方面对于促进民族文化传播和多民族人民交流有着重要意义,另一方面对于稀少资源和少数民族语言机器翻译研究发展有着积极地推动作用。然而,蒙汉机器翻译面临着语言类型跨度大,蒙古文语言现象复杂,研究资源稀少,基础薄弱等问题。传统的基于模板和基于统计的机器翻译模型,以及前沿的神经网络机器翻译模型在蒙汉机器翻译任务上的研究存在诸多困难。本文结合蒙古文语言特点和蒙汉机器翻译研究的难点,系统性的分析以上三类模型在稀少资源的蒙汉机器翻译任务上的优势及不足,提出针对性的模型优化算法和蒙古文形态分析方法。为充分利用蒙汉机器翻译有限的资源和研究成果,本文将三个系统的多个翻译结果进行句子级别的融合,构建蒙汉机器翻译融合系统,进一步提升蒙汉翻译译文质量。本文主要研究工作包括:
  1.本文针对蒙古文形态分析方法展开研究。为解决蒙古文形态复杂在翻译中造成的数据稀疏、蒙古文识别和匹配困难等问题,本文在不同翻译模型中对多种蒙古文形态分析方法进行实验,通过对比分析得到针对不同机器翻译模型的形态分析策略如下:在统计机器翻译中使用词形还原得到的蒙古文词干作为翻译粒度;神经网络机器翻译中,将词干和格的附加成分共同作为子词参与模型训练;在模板翻译中使用切分词缀的方法来进行模糊匹配。
  2.本文提出了一种重对齐统计机器翻译模型。该重对齐模型突破了统计机器翻译同一粒度优化模型的限制,在不同翻译阶段采用不同粒度分别对模型进行优化,并设计了一个将小粒度向大粒度重新对齐的算法,降低了对齐错误率,提升了翻译性能,从整体上优化了统计机器翻译模型。
  3.本文提出了一种融合短语的注意力神经网络翻译模型。该模型为了充分利用蒙汉有限规模双语语料的语言特征,对于同一源端的输入序列,在目标端将汉文字和短语联合解码,使解码器共享其概率分布和目标词典向量表示。融合短语的神经网络解码模型使得深度神经网络在学习多粒度短语特征的同时缓解集外词问题,显著提升了蒙汉神经网络翻译模型性能,使其显著超过传统统计机器翻译模型的翻译水平。
  4.本文提出了一种基于统计词对齐的模板翻译模型。该模型利用统计词对齐信息抽取模板变量,克服了缺乏句法分析工具的难题。模板匹配算法利用多方法蒙古文形态分析进行模糊匹配,提升了模板变量词典匹配率。模板翻译模型构建了可用于蒙汉和汉蒙模板机器翻译的模板库。
  5.为了在稀少资源的蒙汉机器翻译任务中充分利用多个模型的翻译成果,本文提出了一种新的基于循环神经网络编码的双语句子相似度重排序模型,将上述三个翻译系统产生的译文进行重排序,构建多模型融合系统。
  本文针对经典和前沿的机器翻译技术,对蒙汉机器翻译展开研究,面向稀少资源蒙汉机器翻译任务的困难,针对蒙古文语言特点,融合多种方法,对模型进行优化,提升了三个蒙汉机器翻译模型的性能。最后,为了在当前成果下获得更好的蒙汉机器翻译译文,将三个翻译模型进行译文重排序,构建融合系统。本论文工作为蒙汉机器翻译构建了新的系统,提出了新的优化方法,显著提升了蒙汉机器翻译水平,为探索蒙汉机器翻译的新高度做出一定贡献。
[硕士论文] 范淑娟
英语语言文学 河北师范大学 2017(学位年度)
摘要:以计算机为媒介的网络交流研究近年来方兴未艾,但是对电子语篇的语码转换研究却鲜少涉及。本论文从语用学角度,以于国栋的顺应性模式为理论基础,结合问卷调查,分析北美华人网上日常交流话语中的中英语码转换现象,旨在探讨计算机媒介交流中语码转换的顺应性问题。
  本论文的语料收集涉及多种网络交流方式包括QQ,微信,论坛,留言板等。首先,根据网页排名级别选定受北美华人青睐的论坛和留言板;其次,根据网站各版块每日新帖的发布数量选取5个活跃版块并从中收集涉及中英语码转换的语篇,最后,通过筛选提取有代表性语料建立语料库。此外,北美华人交流的QQ群及微信群中涉及中英语码转换的语句是语料的另一个重要来源。论文共对72篇语料中的165处语码转换现象进行分析。语料共包含4447个字符,数据收集时间为6个月。为真实客观呈现语言现象,所有语料未做任何修改。问卷调查包含8个问题,采用电子邮箱发送及现场发放两种调查方式,旨在全面了解北美华人的语言使用,网络交流和语码转换情况。研究中用定性的方法从语用学角度阐述交际者语码转换的动机及其所实现的语用功能,用定量的方法对语料中语码转换的语言形式及问卷调查结果进行统计描述。
  论文的研究结果如下:一,从语言的三个特点出发,结合语料,细化出语码转换中语言的五种不同形式;二,将网络交流中语码转换的语言特点归纳为三点即汉字与英语的混合,汉语拼音与英语的混合以及为宣泄感情而选择替代表达的语码转换;三,基于顺应性模式,通过对语料的分析,细化了顺应类别和具体内容。交际者为顺应语言现实进行的语码转换包括顺应中英两种语言不同的语言规约和语言特点,其中涉及到对等词汇表达的缺乏、特有职业/职位、特有食品,词汇的不同内涵、语言习惯以及国外特有产品。对社会规约的顺应主要涉及到社会禁忌语、脏话咒骂及性相关话题三方面;对心理动机的顺应包括五方面即力求简洁、强调说明、追求时尚、制造幽默感及感情发泄。
  整个研究在一定程度上印证并发展了于国栋语码转换研究的顺应性模式,丰富了语用学视角下的语码转换的实证研究。同时,对人们选择汉英语码转换这一交际策略,从而更好地跨文化交流具有一定的现实意义。
[硕士论文] 凌苏建
计算机技术 苏州大学 2017(学位年度)
摘要:机器翻译属于计算语言学的范畴,其研究借由计算机将一段文本从一种自然语言转化为另一种自然语言,越来越受到研究者的关注。
  本文主要以机器翻译为主要研究对象,分析目前流行的两种机器翻译技术,包括统计机器翻译技术和神经机器翻译技术。在此基础上,从机器翻译研究人员的角度出发,分析了机器翻译结果分析系统的需求。根据此需求,设计并实现了一个机器翻译结果的分析系统,该分析系统即能够具有如下功能:
  (1)对单个翻译系统的结果进行分析,该翻译系统即可以是统计机器翻译,也可以是神经机器翻译。分析的内容包括,按源端句子长度计算BLEU值、分析句法短语的翻译情况、统计未翻译的源端词。对每个句子,可视化词对齐信息、为SMT可视化翻译推导等。
  (2)对两个翻译系统的结果进行对比分析,从多个方面比较两个翻译系统的优劣。
  本文开发的机器翻译结果分析系统能够对翻译结果的错误进行统计分析,以及对翻译的可视化处理,可以使得研究人员易于观察和分析翻译结果,从而获得更多有用信息,来完善现有的翻译系统。
[硕士论文] 刘星
计算机技术 苏州大学 2017(学位年度)
摘要:近年来,随着词法、句法等自然语言处理基础研究的不断完善,句子级语义分析越来越受到研究者的关注。语义分析的目的是将自然语言句子映射成计算机能够理解和解释的逻辑语义表达式。作为深层语义分析的一种实现方式,语义分析已广泛应用于自然语言处理相关任务,如问答系统、语言生成和机器翻译等。本文的主要研究内容包括:
  1.将基于层次短语翻译模型的机器翻译应用于语义分析,该模型将语义分析任务转换为一个机器翻译的任务。
  2.深度分析了机器翻译任务和语义分析任务的不同,从多个方面提高语义分析的性能,包括探索适合语义分析的词对齐方式、多种多非终极符同下文无关文法、未登录词的翻译、以及对n-best翻译结果列表的过滤。在多种语言的语义分析实验表明,以上4种方法都能提高语义分析的性能。
  3.开发了一个语义分析工具,该工具对语义分析及其应用具有一定的促进作用。
[硕士论文] 丁亮
竞争情报 中国科学技术信息研究所 2017(学位年度)
摘要:统计机器翻译和神经机器翻译是目前较为流行的翻译模式,通常在双语对译语料上训练,学习翻译规则生成目标翻译。该机制中影响翻译质量的因素有很多,其中比较重要的有训练数据的领域分布、句对规模以及质量等。一般来说,训练数据与测试数据的领域越接近、句对数量越多越有助于从中学习到更加精准的翻译规则,从而获取更为鲁棒的译文。在实际应用中,为了追求训练数据的质量和规模,训练数据通常会来源繁杂,主题多样,文体不一,与待翻译的目标文本的领域并不能保证完全一致,因而产生了“领域自适应”问题。尤其是神经机器翻译的训练语料规模过大,受词表限制导致未登录词增加,因此机器翻译领域自适应问题一直是本行业致力解决的问题。
  本研究聚焦于多领域科技信息的机器翻译领域自适应,目标在于筛选或者规划训练数据,以及设计和调整翻译模型,使得机器翻译系统能为待翻译的文本生成更符合其领域特性的翻译结果。该研究有助于机器翻译系统在面临特定领域文本翻译时得到更高的译文质量并且极大地降低翻译成本和系统开销。
  本文首先开展基于知识组织的机器翻译领域自适应方法研究。基于具有显性领域标签的知识组织系统,例如《汉表》、日语二维词汇化知识库、汉语科技词系统等,设计句子级别的标注和过滤算法,筛选出高质量较小规模的训练数据,在不损失翻译性能的前提下极大的减小系统开销,保证测试数据与训练数据的领域一致性从而实现机器翻译领域自适应。
  其次进行基于深度学习的机器翻译领域自适应方法研究。采用基于卷积神经网络的深度学习训练方法,将训练语料的单个句子看作短文本,实现了短文本分类进行句子级别的领域标注。利用该方法对机器翻译的语料进行句子级别的领域标注并过滤,保证测试数据与训练数据的领域一致性从而实现机器翻译领域自适应。在对特定领域语料的翻译中,仅仅利用部分训练数据可以得到超越原数据规模的翻译性能。
  最后,本文提出一种新的神经网络的深度融合模型将上面这两种方法结合起来得到效果更佳的句子级别领域标注器。利用论文关键词和汉语科技词系统等知识组织数据构建领域知识库,设计基于领域知识的句子领域标注和过滤算法;结合基于深度学习的句子领域标注算法,设计神经网络深度融合模型的网络架构,对机器翻译实验中的训练语料进行领域标注。实验表明,采用神经网络深度融合模型的方法在语料筛选上效果最佳,规模缩小比例最大,在提升翻译性能的同时降低了翻译系统训练和解码成本。
  综上所述,本论文面向多领域机器翻译需求,旨在提高翻译系统领域自适应能力,分别设计基于知识组织和深度学习的机器翻译领域自适应方法,并采用神经网络将这两种方法有效融合,提出的神经网络深度融合模型有效降低了系统开销并提升了特定领域的翻译性能。本研究在大数据和多领域翻译需求背景下,为进一步探索更好的机器翻译方法奠定了良好基础。
[硕士论文] 申志鹏
计算机科学与技术 内蒙古大学 2017(学位年度)
摘要:近年来,深度学习成为众多领域研究的热点。对于自然语言处理领域中的机器翻译任务,序列到序列的神经网络翻译系统的出现打破了传统机器翻译多模块协调组合的局面,一体化的结构,令人满意的翻译结果使其一开始就备受学者瞩目。后来基于注意力(Attention-based)的神经网络进一步改进了模型,使得翻译效果一定程度上超过了传统的统计机器翻译系统,成为主流的翻译系统之一。
  本文以注意力神经网络为研究背景,结合最近的相关科研成果,从以下三方面展开了对基于注意力神经网络的蒙汉机器翻译系统的研究:(1)蒙古文词向量的预训练:词向量是直接参与模型训练的词语的表示形式,其训练的质量直接关系到最后训练的翻译模型的质量,因此我们探索了三种蒙古文词向量的预训练方法来提升翻译的质量;(2)基于字典的蒙古文词切分:蒙古文的构词特点会造成训练语料出现严重的数据稀疏问题,我们基于字典,对蒙古文单词进行了词缀、词干及格的附加成分等不同粒度的词切分,以此来缓解数据稀疏问题;(3)蒙古文特征提取:对于蒙古文来说,词干、词缀和格的附加成分是其构词的语言特色,我们同样基于字典将这些语言特色作为特征提取出来参与到系统的训练中,以此来提高神经网络翻译系统的翻译效果。
  最后,我们构建并改进了一个完整的基于注意力神经网络的蒙汉翻译系统。实验表明,基于我们的方法,该系统能比基线系统BLEU得分最多提高了2.47个百分点,最优的模型BLEU值达到了30.19。
[硕士论文] 杜健
计算机科学与技术 内蒙古大学 2017(学位年度)
摘要:随着机器翻译的发展,统计机器翻译已经进入瓶颈期很难有所提高,因此研究人员逐步将研究目光投向神经网络机器翻译方向。神经网络机器翻译也在大规模语料上取得了很好的翻译效果,而对小规模语料的神经网络机器翻译研究甚少。但是作为新的机器翻译方法它也存在一些限制:(1)神经网络机器翻译为了降低训练的复杂度通常会将词典的大小限制到一个特定的范围内,从而导致严重的未登录词问题,这个问题严重影响了翻译效果;(2)神经网络机器翻译的解码缺乏保证源语言词都被翻译的机制从而倾向于短的翻译结果;(3)神经网络机器翻译不能很好的利用语言模型。
  基于以上原因,本文在小规模的蒙汉平行语料上实现了神经网络机器翻译,并提出通过统计机器翻译中的特征来缓解神经网络机器翻译中的问题。首先本文搭建了基于注意力的蒙汉神经网络机器翻译系统;其次,本文提取了统计机器翻译特征:翻译模型,词反馈信息以及语言模型,并定义了其特征函数;第三,本文通过蒙汉平行语料利用GIZA++建立了蒙汉对齐词典,利用IRSTLM对汉文建立了语言模型;第四,本文将已经建立的蒙汉对齐词典、语言模型以及词反馈信息通过对数线性模型融入到基于注意力的神经网络机器翻译的解码中从而处理神经网络机器翻译中的限制;最后,本文针对神经网络机器翻译中的未登录词问题提出了在翻译过程中处理和翻译后处理的两种处理方法,大幅度减少了神经网络机器翻译中的未登录词。
  实验结果表明,通过融合统计机器翻译特征的蒙汉神经网络机器翻译明显地提升了翻译质量,BLEU值提高至30.66,句子长度由16.7个词提升至19.1个词,并处理掉了神经网络机器翻译中86%的未登录词。
[硕士论文] 杨浩
外国语言学及应用语言学 兰州理工大学 2017(学位年度)
摘要:自20世纪90年代以来,随着语料库技术和语料库语言学的不断发展和成熟,基于语料库的翻译研究获得了巨大的发展。在语料库翻译学的众多研究领域中,翻译共性这个话题越来越受到翻译界的关注。基于文献综述,目前学界讨论最多的三个翻译共性假说是简化,显化和范化,且多集中在显化,对于简化和范化的研究较少。研究大多基于笔译语料库,而针对简化的基于口译语料库的研究更是不多见,基于学生口译语料库对于简化的研究至今空白。本文采用学习者语料库来研究口译中词汇模式的简化现象,一是能够填补这方面研究的空白,二是通过研究,希望学习者能对词汇模式简化现象有更深的了解。
  本文采用基于语料库的研究方法,试图通过对两个语料库的对比,探讨中国大学生口译文本中的词汇模式是否存在简化现象,并对简化表现特征进行分析,试图提出一些翻译策略。本文采用了两个语料库,一个是中国大学生英汉汉英口笔译语料库中的口译语料库(PACCEL-S),另一个是自建的密歇根学术英语口语语料库(MICASE-S)。前者为观察语料库,形符数为145,882,后者为参照语料库,形符数为158,992。本文利用了Treetagger,WordSmith Tools6.0,BFSU PowerConc1.0和RangeBNC等分析工具分析了翻译共性假设中简化在口译英语词汇中的体现。检测简化指标包括以下几方面:类符/形符比和标准化类符/形符比、词汇密度、平均词长、平均句长、词汇难度分析、高频表头和动词的名词化。
  研究结果表明,根据类符/形符比和标准化类符/形符比、平均句长和词汇密度的结果,口译英语中有简化现象的体现。而根据平均词长,词汇难度分析、高频表头和动词的名词化这四个指标的结果,不能证实口译英语中存在简化现象。中国大学生口译文本不能完全证实简化假说。最后,本文给出一些简化策略,并认为应根据不同的口译场合决定是否采用简化。
[硕士论文] 张玉水
外国语言学及应用语言学 山东农业大学 2017(学位年度)
摘要:韩礼德继承和发展了伦敦学派约翰?弗斯的理论,并于1985年出版了《系统功能语法导论》,这标志着系统功能语法的正式建立。系统功能语法是20世纪后半叶最有影响力的语言学理论之一,国外的马森、马丁、福赛特等许多专家学者对系统功能语言学理论的发展和完善做出了重要贡献。胡壮麟、朱永生、张德禄于1989编著了《系统功能语言学导论》,填补了国内系统功能语法的研究空白并且对这一理论的推广和介绍发挥了不可估量的作用。韩礼德提出语义系统有三大元功能:概念功能,人际功能,语篇功能。系统功能语法的三大元功能广泛用于分析各类语篇,尤其在分析小说、演讲、科技语篇、新闻报道等方面取得了重大成果。然而,运用及物性系统在分析经济类新闻报道的研究相对较少,并且研究的广度和深度也不够。
  新闻报道是批评话语分析和语言学研究的主要对象之一。本文研究的新闻语料是从英国路透社官方网站下载的。其原因有二:(一)英国虽然不是丝绸之路沿线的国家,但是英国是积极响应参与“一带一路”的西方国家。所以,路透社关于“一带一路”倡议的报道相对其他的国外报纸会相对较多;(二)路透社是世界上最早创办的通讯社之一,也是目前英国最大的通讯社和西方四大通讯社之一,其有较大的影响力和较高的关注度,而且路透社新闻报道的主要对象是国外,它的国际新闻紧密配合英国政府的外交活动。
  本文在系统功能语法及物性理论框架下,尝试分析“一带一路”新闻报道。作者从路透社官方网站输入“一带一路”或者“丝绸之路经济带和21世纪海上丝绸之路”,时间跨度是从2015年6月到2016年4月,下载所有相关的报道。所有词频大于2的语篇保留下来,自建小型语料库,共计56篇31007词。
  本文主要回答了以下三个问题:1)及物性系统是如何在“一带一路”新闻报道中应用的;2)及物性六大过程在报道中是如何分布的;3)过程分布的特点和及物性隐喻,反映了新闻报道什么样的文体特征。通过分析新闻语篇,用语料库软件进行数据处理,得出以下结论。
  第一,结果表明系统功能语法及物性系统均可以在自建语料库检索到,及物性系统所属的每个过程都有出现。第二,56篇新闻报道共出现3915个及物性过程。六大过程分布频数及其所占比例均可通过计算得出。其中物质过程是六大过程中出现频率占比最高的(3086,78.86%),关系过程占(491,12.55%),言语过程(241,6.2%),心理过程(62,1.6%),存在过程(29,0.74%),行为过程(6,0.05%)。物质过程比例最高意味着事实新闻报道既有叙述性语篇特点,又有描述性语篇的特点。描述意义的过程多数是关系过程、存在过程和心理过程,而表示叙述意义的则多数是物质过程。物质过程所占比最高的结论也恰恰符合新闻报道的特点,客观真实地反映外界发生的事情或者正在发生的事情。第三,作者尝试描述了受及物性系统影响下的词汇语法特征。及物性隐喻使得新闻语篇语言有了简洁的特点。
  在及物性系统理论框架下,对“一带一路”新闻报道的分析既有理论意义也有实践意义。理论上,体现了系统功能语法观,突出了“一带一路”新闻报道的表述功能,同时,也验证了及物性理论的可操作性和应用的普遍性。实践意义上,本研究为新闻语篇作者在写作中的谋篇布局及读者对新闻语篇的解读提供了一个新的视角,及物性过程的选择及及物性过程的隐喻化能客观地反映新闻报道的事实,并能产生简洁与衔接的效果。对新闻报道所进行的及物性研究,有助于人们了解新闻语言的选择及其体现的功能特点,更好地理解和把握新闻语篇的特征。
[硕士论文] 郑晓康
计算机技术 北京交通大学 2017(学位年度)
摘要:机器翻译(Machine Translation,MT)的目的是为源语言找到一个意思最为相近的目标语言。从本质上来看,机器翻译完成的是一个序列到序列的任务。近年来随着深度神经网络(Deep Neural Network,DNN)在语音识别和图像处理等方面取得突破性进展,研究人员开始着手使用深度神经网络处理符号变量方面的问题,例如自然语言处理领域的机器翻译任务。神经网络机器翻译(Neural Machine Translation,NMT)包含编码器和解码器两个神经网络,编码器把源语言转化成一个向量表示,解码器根据源语言的向量表示加上目标语言的历史信息生成目标语言的词序列。为了控制计算复杂度,大多数的NMT系统会限制源语言和目标语言的词典大小,一般设置为三万词到八万词之间。对于不在词典中的词,也就是集外词,使用符号“UNK”来代替。集外词带来几个问题,一个是在测试过程中,模型不能够生成合适的翻译结果;另一个是集外词导致源语言句子语义无法正确表示,加重翻译结果的歧义现象;第三个是训练语料中源语言和目标语言句子结构被严重破坏,神经网络参数质量不高。在专利文献语料中存在大量的低频词,导致这几个问题更为严重。
  本论文以专利文献的集外词翻译为切入点,以中英神经网络机器翻译为主要研究方向,重点研究并提出了一种改善集外词翻译问题的方法,从而提高神经网络机器翻译的效果。主要研究成果如下:
  (1)引入统计机器翻译中的对齐信息,以外部信息的形式加入语料库词典,当出现集外词时根据神经网络机器翻译中的注意力机制,对集外词进行翻译。
  (2)对语料中的技术术语进行标签化处理,以前后处理的方式翻译技术术语。
  (3)加入多模型融合机制,即同时训练多个翻译模型,在解码时根据多个翻译模型得到的结果调整注意力机制权重信息,挑选最优结果。
  本文将集外词处理作为研究重点,在中英专利语料上的实验结果表明,本文提出的方法能有效的处理集外词和专利术语,使翻译效果得到提升。
[硕士论文] 张郝澜
翻译 电子科技大学 2017(学位年度)
摘要:在知识经济背景下,高校的科技研发和知识创新,对社会进步和行业竞争具有积极意义。对于理工类院校,如何实现科技成果商业化,成为了一个亟待解决的难题。本实践报告基于《卓越产学研》一书的翻译,其内容主要介绍香港理工大学知识转移即科研成果商业化的成就和经验,对理工院校科技成果商业化具有借鉴意义。
  通过文本分析,译者发现该文本包含大量专业学科知识。在词汇层面,有大量学科专业术语和专有名词;在句子层面,简单句,长句和复杂句混用。因任务时间短,工作量大,译者为提升效率,在翻译实践中使用了百度翻译作为辅助工具,并对其译文进行译后编辑。
  译者在语义翻译和交际翻译理论的指导下,采用多种翻译技巧对百度翻译的译文进行译后编辑,这些技巧包括应用于词汇层面的选词,词性转换,参考平行文本,以及应用于句子层面的拆分,合并和重组。通过上述分析译者认为在本次翻译实践中,百度翻译有助于提升译者的翻译效率;译者在译后编辑中应采用上述翻译技巧使译文忠实准确,通顺流畅。
  本报告包含四个部分,第一部分介绍翻译项目的背景和翻译计划;第二部分为翻译过程,包括文本分析,理论准备,翻译工具,翻译文本和译后校对;第三部分分析了百度翻译在本次实践中词汇和句子层面的优缺点,并采取多种翻译技巧对其不足之处进行译后编辑;第四部分是对前文分析的总结,并指出存在的不足。
[硕士论文] 姚亮
计算机科学与技术 苏州大学 2017(学位年度)
摘要:机器翻译领域适应性特指翻译系统或模型对不同领域知识和问题的学习和处理能力,体现为翻译系统或模型的健壮性、稳定性和可移植性。目前,利用大规模的平行资源搭建的机器翻译系统,在面向特定领域翻译任务时,往往难以获得令人满意的翻译结果。一方面,翻译系统的平行训练语料中混杂着不同领域的翻译知识和语言现象,这为特定领域文本的翻译引入了许多的噪声。另一方面,当文本的领域发生变化时,利用现有平行语料训练的翻译系统无法自动的适应领域的变化。针对上述问题,本文集中研究面向统计机器翻译的领域适应性优化方法,具体包括以下三个方面:
  (1)基于主题信息的领域平行句对选择与优化
  提出利用平行句对蕴含的主题信息从大规模领域混杂的平行语料库中选择与领域相关的句对子集,用以训练特定领域机器翻译系统。针对平行句对长度较短,难以有效分析其主题的问题。提出构建基于短语对的主题模型,进而推理平行句对和目标领域开发集的主题表示。
  (2)基于语义相似度的领域翻译模型优化方法
  针对利用现有平行资源训练的翻译系统,无法根据文本的领域变化进行自适应翻译的问题,提出从语义角度评价短语对的领域互译度,借此优化通用翻译模型。该方法构建特定领域词向量的双语映射关系,以获取短语对中单词在特定领域的语义k近邻词。借助该语义k近邻词,估计短语对的领域互译度,并作为新特征融入翻译系统解码器,以提升翻译模型的领域适应能力。
  (3)融合句子和文档信息的翻译模型优化方法
  针对测试文本领域未知的情况,提出一种融合句子和文档信息的翻译模型动态适应性优化方法。对于任意短语对,该方法将其所在源语言句子和文档作为上下文信息。并借助神经网络模型,学习短语对和其上下文的语义表示,最终输入多层感知机计算获取短语对的语义匹配得分。
[硕士论文] 唐海庆
计算机科学与技术 苏州大学 2017(学位年度)
摘要:基于短语的统计机器翻译以短语作为基本翻译单位,能够很好地解决短语内部的语义依赖关系,但无法捕获长距离的语义依赖关系。同时,任意连续的单词即可构成短语,短语不需要具有语法结构,这也导致翻译系统使用的语义信息比较有限。鉴于基于短语的统计翻译方法存在上述缺陷,本文展开基于单词和短语语义的统计翻译模型研究,考虑在基于短语的统计机器翻译中引入语义信息,来提高翻译系统的性能。本文主要工作内容包括:
  (1)针对基于短语的统计机器翻译无法捕获长距离的语义约束关系,导致长距离的动宾结构短语对以及主谓结构短语对翻译错误,本文展开基于单词语义的统计翻译模型研究。我们提出基于动词选择偏向性的翻译模型,将动词对宾语和主语的选择倾向应用于机器翻译中。首先,抽取出训练语料中的所有动宾关系实例和主谓关系实例。然后,采用条件概率方法和主题模型方法在动宾关系和主谓关系下分别为动词训练单语义和跨语义的选择偏向性模型。最后,设计算法将动词的选择偏向性模型集成到基于短语的统计机器翻译中。实验结果表明,基于动词选择偏向性的翻译模型能够很好地解决动词及其参数无法正确翻译的问题。
  (2)针对基于短语的统计机器翻译使用的语义知识有限,导致源语言多义词的译文词汇选择正确率不高,本文展开基于短语语义的统计翻译模型研究。我们提出基于超词义的翻译模型,首次将粗粒度层的单词词义应用于机器翻译中。首先,利用超词义标注方法为源语言每个单词标注对应的超词义。其次,采用最大熵分类器和词义嵌入两种方法来训练基于超词义的翻译模型。最后,设计相应算法将两种翻译模型分别集成到基于短语的统计机器翻译中。实验结果表明,基于超词义的翻译模型能够有效提高多义词的翻译正确率。
[硕士论文] 王娟
翻译 电子科技大学 2017(学位年度)
摘要:在国际化办学的背景下,电子科技大学教务处委托笔者翻译国外优秀教育经验。本英译汉翻译实践报告源文本探讨欧林学院和旧金山州立大学等两所海外高校的课程开发经验。
  在翻译过程中,译者从词、句、篇章角度进行源语文本分析并指出翻译难点,采用谷歌机器翻译工具,分析机器翻译的优劣,并结合人工翻译提出相应的优化方法。在词汇翻译中采用了平行文本、转换法、意译法等,在句子翻译中采用了增译、省译、变序法等。此实践报告希望在翻译技术不断发展的情况下,梳理机器翻译和人工翻译的区别,更为重要地是,为广大翻译需求者提出建设性意见,实现译文质量和翻译效率的平衡。
  “功能对等理论”是由美国著名翻译理论家奈达提出的翻译理论,其核心是关照读者的反应,特别是译入语读者的反应。它把译入语读者的反应和源语读者的反应的一致性程度作为评判翻译质量的好坏。《课程发展》这一文本中译本的主要接受人群是吸取国外课程经验的行政人员,此译本最关心的也是他们在阅读之后的反应以及他们所作的课程选择。
  本实践报告包含四大主要部分。第一部分简要介绍翻译任务的背景、意义和理论指导,第二部分介绍翻译过程,包括译前准备,源语文本分析项目计划和质量控制。第三部分是本实践报告最主要的内容,根据译后编辑从词法、句法、篇章角度比较机器翻译译文,并提出相应的改善策略。最后部分总结翻译实践并提出意见。
  (已选择0条) 清除
公   告

北京万方数据股份有限公司在天猫、京东开具唯一官方授权的直营店铺:

1、天猫--万方数据教育专营店

2、京东--万方数据官方旗舰店

敬请广大用户关注、支持!查看详情

手机版

万方数据知识服务平台 扫码关注微信公众号

万方选题

学术圈
实名学术社交
订阅
收藏
快速查看收藏过的文献
客服
服务
回到
顶部