登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 计算机科学与技术 > 正文

文档在线翻译系统的设计与实现毕业论文

 2021-11-21 04:11  

论文总字数:26371字

摘 要

为满足人们对外文文档翻译的需求,设计并实现了一个文档在线翻译系统。该系统通过Web方式提供服务,可实现保留源文档格式的外文资料在线翻译。此外该系统还提供了即时的短文本翻译以及为文档翻译组件提供支撑的外围辅助功能。

本文档在线翻译系统由翻译引擎、文档解析和网站服务组成。翻译引擎采用谷歌开源的attention-NMT模型,并通过调整学习速度,隐层大小,最大下降梯度等参数,对模型进行调优与训练。对不同类型文档采取不同解析方法;对以xml格式编码的文件,如常见的Word文档,采用解析工具lxml配合py-docx实现文档的逐级解码和解析;对非xml格式文件使用win32com将其转为xml格式;图片类文件使用百度AI提供的接口进行解析;pdf文件则综合上述方法进行解析。网络服务采用flask框架和Python语言实现。上述模块相互协同,构建出了一个安全可靠、简洁快速、运行高效、适用范围广泛的在线文档翻译系统。经试验测试,本系统可有效翻译外文资料,减弱了外文文档的阅读难度,提高了人们的工作效率。

关键词:机器翻译;文档解析;在线翻译

Abstract

An online document translation system is designed and implemented to meet people's needs for foreign document translation. The system provides the service through the Web, which can provides free translation service of document and retained the document’s format. In addition, the system also provides real-time short text translation and support for the document translation components of the peripheral auxiliary functions.

This document online translation system consists of translation engine, document parsing and website services. The translation engine adopts the open-source attention-nmt model of Google, and optimizes and trains the model by adjusting learning speed, hidden layer size, maximum descent gradient and other parameters. Different parsing methods are adopted for different types of documents; for files encoded in XML format, such as common word documents, the parsing tool lxml and py docx are used to decode and parse the documents level by level; for non XML files, win32com is used to transform them into XML format; for picture files, baidu AI is used to parse them; for PDF files, the above methods are integrated for parsing. The network service is implemented by the flash framework and python language. The above modules cooperate with each other to build a safe, reliable, simple, fast, efficient and widely applicable online document translation system. Through the test, the system can effectively translate foreign materials, reduce the difficulty of reading foreign documents, and improve people's work efficiency.

Key Words:Machine translation; Document parsing; Online translation

目 录

第1章 绪论 1

1.1研究背景 1

1.2设计目标 1

1.3本文结构 1

第2章 系统分析与设计 1

2.1需求分析 1

2.1.1功能性需求 1

2.1.2非功能性需求 1

2.2系统设计 2

2.2.1系统架构 2

2.2.2数据库设计 3

2.2.3系统运行流程 4

第3章 系统实现 6

3.1系统文件结构 6

3.2翻译模型的实现 6

3.2.1相关技术介绍 6

3.2.2数据集及其预处理 8

3.2.3模型实现 8

3.3文件解析实现 12

3.3.1 Word文档解析实现 12

3.3.2图片文件解析实现 14

3.3.3 PDF文档解析实现 15

3.4.4其他格式文件解析实现 16

3.4 翻译网站的实现 17

3.4.1相关技术简介 17

3.4.2前端页面 18

3.4.3登录功能模块 20

3.4.4注册功能模块 21

3.4.5文件传输模块 22

3.4.6文件处理模块 22

第4章 系统测试 26

4.1测试环境 26

4.1.2服务器环境 26

4.1.1客户机环境 26

4.2功能测试 26

4.2.1链接测试 26

4.2.2表单数据库测试 27

4.2.3基础翻译测试 28

4.2.4文件传输测试 31

4.2.5文件处理测试 31

4.3性能测试 35

4.3.1连接速度测试 35

4.3.2负载与压力测试 35

第5章 总结与展望 37

5.1 总结 37

5.2 展望 37

参考文献 38

致 谢 40

第1章 绪论

1.1研究背景

随着互联网的快速发展和普遍应用,全球化进程的加速以及国际社会间经济文化交流的日渐密切,人们对跨语言交流和理解需求日益增长。维基百科统计的数据表明,目前互联网上有数百种正在使用的不同语言。以英语为主要语言的互联网用户占了互联网用户的四分之一,但是英语内容却占了将近互联网内容的一半。跨域语言屏障,获取互联网上更多的内容是持续增长的需求[1]。传统的人工翻译的方式已经远远不能满足目前如此迅猛的外文翻译增长需求,因此机器翻译的改进迫在眉睫。近几年来,机器翻译领域在市场需求的大力推动和商业基金的大量注入下,机器翻译技术迅猛发展,商用机器翻译系统也正式迈入了实用阶段。传统机器翻译领域主要采用的技术是统计机器翻译。该技术经过几十年来不断发展,慢慢到达该技术的发展瓶颈,慢慢地开始不能满足用户快速准确的翻译需求。随着人工智能技术的再度崛起,机器翻译领域又获得了新的活力。Google公司于2016年正式宣布将所有该公司提供的传统统计机器翻译服务下架,转而上线神经网络机器翻译服务。从此以后,神经机器翻译逐渐成为现代机器翻译的绝对主流。

但是尽管技术已经发展到一个相对纯熟的阶段,机器翻译对于复杂的文本翻译结果仍然不尽人意。徐彬,郭红梅提出了基于非技术文本的CAT技术的具体实践,这种做法说明了通用领域文献的翻译比较复杂[2]。蔡强,董冬冬提出的基于神经机器翻译文本的译后文本编辑则进一步说明了复杂文本翻译的难度极高[3],机器翻译也没有最大程度的为人们的生活带来方便。目前商业化的翻译工具主要以硬件终端(如有道翻译机、小米小爱同学等)、网页服务(如百度翻译、必应翻译等)、应用软件(如有道app,金山词典等)和内嵌的微服务(如必应接口、谷歌翻译等)。尽管使用方式如此繁多,实际上用户的交互逻辑无非就是短文本即时翻译和拍照识图翻译两种。基于文件的翻译则少之又少,网易有道于2020年上线了文件翻译,但是却为收费功能,影响用户使用。百度的文件翻译则是直接提取文本进行翻译,与短文本翻译无异,且无法保留原稿格式。境外非营利性组织虽然也上线了文件翻译,但受限于地区法规和网络环境,依然无法有效的为大陆用户等人群服务。

1.2设计目标

开发设计本系统的任务是实现最大限度保留文本格式的文档翻译,通过使用该系统用户可以在线实现对文档图片表格等常见文档格式的翻译,并最大限度地保留文档格式。

开发系统的目标是在线对文档进行翻译, 满足的要求具体可包括如下几个方面:

请支付后下载全文,论文总字数:26371字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图