livetv_mining直播网站数据采集

联合创作 · 2023-09-23 01:28

关于项目

介绍

项目实现爬虫、数据挖掘/分析等功能。目前主要是扫描直播站点收集数据，后续会开发相关数据分析模块。

架构采用前后端分离，通过RESTFul API通信。前端Vue+Webpack，后端Flask。

文件结构分为三部分，每个部分可以单独提供服务：

frontend 前端代码，使用Vue+Webpack开发管理。
server 后端RESTFul服务，使用Flask搭建提供API。
crawler 爬虫服务，使用框架scrapy对直播站点爬取数据。

使用中有问题或更新建议，欢迎提issue或用以下联系方式跟我交流：

邮件: zwtzjd@gmail.com
QQ: 3084582097

历程

2017-05-10 开发新爬虫火猫。
2017-04-24 全民收集开发完成。
2017-04-22 熊猫收集开发完成。
2017-04-20 斗鱼收集开发完成。
2017-04-15 准备开发收集站点房间：关注数、公告、上一次开播时间、打赏值、开播当天人气中位数。
2017-04-01 变更LICENSE：GPL -> Apache。
2017-03-20 开发新爬虫全民。
2017-03-03 开发新爬虫龙珠。
2017-03-01 恢复爬虫熊猫、战旗。
2017-01-07 完成全部功能迁移，前后端分离完成。
2016-12-24 引入vuex进行state和权限管理。
2016-12-15 引入vue-resource，主模块(Main)完成分离。
2016-11-25 研究流行前端框架和开发方式，确定使用webpack开发。
2016-11-20 重新设计结构，进行前后端分离。
2016-11-01 修正改造搜索功能，需要登录后才能使用。
2016-10-29 完成渲染初步改造，已实现调用REST API进行访问读取。爬虫运行间隔20分钟。
2016-10-20 引入Vue.js，改造前端渲染方式，减轻服务器压力。开发完成简单 Flask-Vue 插件。
2016-10-15 引入Scrapy重构爬虫，精简爬虫步骤。仅保留斗鱼、BiliBli爬虫。

2016-08-15 v1.0版本开发结束，代码保存在分支v1.0

捐助开发者

如果你喜欢我的作品 or 站点对你有所帮助，希望能支持我一下。

微信	支付宝

浏览 10

点赞

收藏

分享

举报

评论

图片

表情

livetv_mining直播网站数据采集

关于项目介绍项目实现爬虫、数据挖掘/分析等功能。目前主要是扫描直播站点收集数据，后续会开发相关数据分析模块。架构采用前后端分离，通过RESTFulAPI通信。前端Vue+Webpack，后端Flask

NETSpider网站数据采集软件

NETSpider网站数据采集软件是一款基于.Net平台的开源软件。软件部分功能是基本Soukey软

NETSpider网站数据采集软件

NETSpider网站数据采集软件是一款基于.Net平台的开源软件。软件部分功能是基本Soukey软件进行开发的.这个版本采用VS2010+.NET3.5进行开发的.NETSpider采摘当前提供的主

WebCrawler网站数据采集工具

WebCrawler 是一个网站数据采集工具，使用 scrapy 框架。环境准备[Scrapy] (

WebCrawler网站数据采集工具

WebCrawler是一个网站数据采集工具，使用scrapy框架。环境准备[Scrapy](http://scrapy.org/)[MongoDB](https://www.mongodb.org/)

数据采集标注

为AI人工智能企业提供标准的数据采集、标注服务。累计执行400多个项目案例，采集人数达到5万人次

膳食数据采集

膳食数据采集

数据采集系统

产品最终是要基于工厂实时生产数据，构建汽车行业的智慧工厂管理系统。目前主要实现工厂生产数据采集+业务算法建模+数据大屏。整套系统采用微服务架构，基于私有云+数据

语音采集、图片采集、文本采集、视频采集等数据采集

数据采集，包括语音采集、视频采集、图片采集、文本采集等。

如何灵活运用客户端埋点采集数据｜直播预告

点赞

收藏

分享

举报