基于机器学习的新闻网页识别方法研究与实现任务书

 2020-02-18 05:02

1. 毕业设计(论文)主要内容:

现有的网页采集方法主要采用爬虫技术,首先从网络上获取网页源码,其次对网页进行解析,获取新闻标题和正文部分内容,最后对提取的文本进行按需处理。

但随着web技术的发展和网站商业化运作越来越严重,网页中噪声信息空前加大,使得很多方法己经不再适用于当今网页正文信息的提取,为网页文本信息的智能化提取带来了新的挑战。

例如在新闻文本采集过程中,一般只关注包含有用信息的网页。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 毕业设计(论文)主要任务及要求

1)首先采集腾讯新闻,凤凰新闻等常见新闻门户网站的网页信息;

2)然后搜集相关资料,制作合适的数据集;

3)最后建立合适的模型,实现对非新闻网页的识别。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 毕业设计(论文)完成任务的计划与安排

1)2019/1/14—2019/1/22:查阅参考文献,明确选题;

2)2019/1/23—2019/2/22:进一步阅读文献,完成开题报告;翻译英文资料(不少于5000汉字),并交予指导教师检查。

3)2019/2/23—2019/4/30:对几大新闻门户网站的网页信息进行采集,建立合适的模型,实现对非新闻网页的识别。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 主要参考文献

[1] 周志华. 机器学习. 清华大学出版社,2016

[2] 施生生. 精确web信息抽取关键技术与系统研究[d]. 2017.

[3] 陈西安. 智能web新闻文本采集方法研究[d]. 2016.

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。