学生天地>>详情

DACE分布式爬虫管理系统


2017年09月14日 17:20  点击:


一、项目概况

项目名称:DACE分布式爬虫管理系统

项目类别:第六届“中国软件杯”大学生软件设计大赛竞赛作品

项目负责人:叶彩旭(15级软件工程专业)

项目成员:郑嘉明(15级软件工程专业)、潘炜桐(15级软件工程专业)

成果类型:Web分布式爬虫系统

指导老师:杨博雄


二、成果介绍及展示:

DACE分布式爬虫系统通过分布式搭建一个快速、高效、稳定的爬虫系统,能够对电商网站实现全站商品数据采集,同时采集商品评价并且生成评价数据分析报告;通过我们团队改进的通用正文算法可提取各类新闻博客网站;快速采集招聘网站数据并进行数据分析生成行业报告;通用的爬虫技术可分析出任何网站的最后更新时间,实现增量爬取。优秀反爬虫技术,保障了整个系统的安全性和可靠性。

其中用UI的爬虫界面实现爬虫的快速部署和管理是本软件的特点之一,无需修改主程序源代码即可实现新的爬虫规则,真正的可插拔式爬虫。能够随时开启和停止爬虫,一键导出爬虫数据,对爬虫状态进行实时监控。后台服务器运行情况通过动态表格实时显示,管理Redis队列,方便快管理爬虫。

1.控制台:

控制台是对系统全局爬虫运行情况的监控,能够显示队列中等待运行的任务、正在运行的任务和已完成的任务。

2.定期任务

设置定时模块,提前设置定时爬虫任务,后台会在指定时间开启爬虫自动采集,最大限度提高系统利用效率,最佳无人值守操作系统


3.部署

通过创建不同项目,单独管理不同爬虫,实现对不同规则的爬虫任意部署。

4.电商爬虫

该爬虫实现对电商全站商品数据的抓取,也可以根据关键字搜索对商品结果进行采集。包括采集商家、商品、评论等信息,同时提供评论数据分析。

5.谷歌新闻搜索

此功能是通过谷歌的新闻搜索功能,实现对关键字的新闻搜索,并使用DACE系统自主研发的正文提取算法,对新闻网页的正文内容进行提取。该算法提取准确率在90%以上。

6.招聘网站爬虫

招聘爬虫是对招聘信息进行抓取和数据结构化的爬虫,通过职位关键字和指定某个地区即可搜索该职位在地区的招聘信息,并生成行业报告。

7.实时监控

实时监控模块可以对DACE系统的爬虫主机进行实时监控,查看服务器运行的内存使用情况和CPU使用情况。如果服务器发生异常,或者负载过大,可以通过实时监控及时发现。

三、项目收获:

我们团队通过开发分布式爬虫系统,更深入了解Python编程语言。在指导老师的耐心指导下,我们团队收获更多相关软件方面的知识,完善了自身的知识体系,增强了对分布式系统的理解。我们希望通过这个项目,更加注重对互联网数据的利用,从中挖掘出更出有价值的信息。

凭借本项目,我们团队荣获2017年第六届“中国软件杯”大学生软件设计大赛全国三等奖。





上一条:基于智能机械臂的图书馆管理系统
下一条:小区域生活社交圈app概念设计

关闭

最新资讯 >>