登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 软件工程 > 正文

基于word2vec的中文文本相似度计算开题报告

 2020-08-13 08:08  

1. 研究目的与意义(文献综述)

word2vec是google公司在2013年开放的一款用于训练词向量的软件工具。它根据给定的语料库,通过优化后的训练模型快速有效的将一个词语表达成向量形式,其核心架构包括 cbow和skip-gram。

使用word2vec处理新闻内容,可以进行自动分词并得到词向量。通过训练得到的词向量我们可以进行相应的自然语言处理工作,比如求相似词、关键词聚类等。其中word2vec中提供了distance求词的cosine相似度,并排序。也可以在训练时,设置-classes参数来指定聚类的簇个数,使用kmeans进行聚类。

本课题的内容就是利用word2vec对新闻内容进行自动分词并做相似度计算。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

完成的主要任务及要求:

1.查阅15篇相关文献(含2篇外文),并每篇书写200—300字文献摘要(装订成册,带封面);
2.认真填写周记,完成800字开题报告;
3.完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);
4.完成系统的编码与调试;
5.完成10000字以上的毕业论文;
6.进行论文答辩。

研究方法:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

1.2017/1/14—2017/2/22:确定选题,查阅文献,外文翻译和撰写开题报告;

2.2017/2/23—2017/4/30:系统架构、程序设计与开发、系统测试与完善;
3.2017/5/1—2017/5/25:撰写及修改毕业论文;
4.2017/5/26—2017/6/6:准备答辩。

4. 参考文献(12篇以上)

1.《word2vec的核心架构及其应用》熊富林、邓怡豪、唐晓晟,北邮2015年

2.《word2vec的工作原理及应用探究》周练,西安电子科技大学,2014年

3.《word2vec对中文词进行聚类的研究》郑文超、徐鹏,北京邮电大学2013年

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图