depth-crawler-python三级页面定向爬取

联合创作 · 2023-09-29 13:53

depth-crawler 是一个三级页面定向爬取工具。

功能

1.在python中运用scrapy框架定向爬取至三级页面,保存html页面内容与链接为xlsx表格

2.将xlsx表格内容存至elasticsearch中

3.elasticsearch查询的时候运用ik分词

4.在python中运用flask框架写前端页面呈现搜索页面和搜索的信息内容

5.查询结果高亮显示

 

安装说明

首先安装python用于编辑代码,然后安装jdk环境用于后续安装elasticsearch,elasticsearch数据库对爬取下来的数据进行处理。npm 是随同 node.js 一起安装的包管理工具,用于node.js插件管理(包括安装、卸载、管理依赖等),elasticsearch-head是elasticsearch用于监控 Elasticsearch 状态的客户端插件,包括数据可视化、执行增删改查操作等,使用JavaScript开发的依赖于Node.js

1.python(3.8.10)打开cmd输入python,有版本号说明安装成功

2.jdk(1.8.0_241)注意环境变量的配置,打开cmd输入java -version,有版本号说明安装成

3.elasticsearch(6.8.21)找到elasticsearch.bat启动成功后,在浏览器中输入(localhost:9200)出现如图便安装成

3.1.nodejs(v16.17.0)找到elasticsearch.bat启动成功后,在浏览器中输入(localhost:9200)出现如图便安装成功

3.2.elasticsearch-head(6.8.21)与elasticsearch版本一致(head插件的安装和基本使用)通过elasticsearch-head-master打开命令行,输入(grunt server)

4.扩展库部分 ——pip install 库名==版本号 (可以在cmd中输入pip list 查看所有的版本号)

4.1.flask(2.1.2)——使用 Python用于编写web应用的框架

在cmd中输入(pip install flask),指定版本号的话输入(pip install flask==2.1.2)

4.2.scrapy(2.6.1)——用于爬取网站数据、提取结构性数据

4.3.elasticsearch(7.15.2)——用于搜索信息

4.4.pandas(1.4.1)——用于处理表格数据

4.5.openpyxl(3.0.9)——可用于读写excel表格

4.6.XlsxWriter(3.0.3)——用于创建Excel XLSX文件

 

启动流程

elasticsearch:

1.在"elasticsearch"的文件夹下打开“bin文件夹然后双击"elasticsearch.bat"开始运行

2.在"elasticsearch"的文件夹下打开“head"文件夹下的"elasticsearch-head-master"复制路径(D:\\ES\\elasticsearch-6.8.21\\head\\elasticsearch-head-master)打开cmd进入路径下输入命令(grunt server)

 

效果浏览

elasticsearch:

1.打开浏览器输入(http://localhost:9200/)访问端口

2.打开浏览器输入(http://localhost:9100/)可看到elasticsearch数据库中信息

前端 :

1.运行(route.py)在浏览器中访问第一个路由(http://127.0.0.1:5000/search)可看到搜索页面

2.在搜索框中输入搜索内容(如:纺织)可出现相关信息,在最后也有分页效果

3.点击标题和内容部分会返回原网址

4.点击快照会进去html页面

5.每条内容回根据点击次数提高排名,在浏览器中输入(http://127.0.0.1:5000/restore)排名恢复原样

浏览 2
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报