业界动态
python自动抓取网管软件的数据_python实现scrapy爬虫每天定时抓取数据的示例代码...
2024-11-09 15:53

1. 前言。

python自动抓取网管软件的数据_python实现scrapy爬虫每天定时抓取数据的示例代码...

1.1. 需求背景。

每天抓取的是同一份商品的数据,用来做趋势分析。

要求每天都需要抓一份,也仅限抓取一份数据。

但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量有关,一般情况下在20小时左右,极少情况下会超过24小时。

1.2. 实现功能。

通过以下三步,保证爬虫能自动隔天抓取数据:

每天凌晨00:01启动监控脚本,监控爬虫的运行状态,一旦爬虫进入空闲状态,启动爬虫。

一旦爬虫执行完毕,自动退出脚本,结束今天的任务。

一旦脚本距离启动时间超过24小时,自动退出脚本,等待第二天的监控脚本启动,重复这三步。

2. 环境。

python 3.6.1

系统:win7

IDE:pycharm

安装过scrapy

3. 设计思路。

3.1. 前提:

目前爬虫是通过scrapy模块自带的cmdline.execute来启动的。

from scrapy import cmdline

cmdline.execute('scrapy crawl mySpider'.split())

3.2. 将自动执行脚本做到scrapy爬虫的外部

(1)每天凌晨00:01启动脚本(控制脚本的存活时间为24小时),监测爬虫的运行状态(需要用一个标记信息来表示爬虫的状态:运行还是停止)。

如果爬虫处于运行状态(前一天爬取数据尚未结束),进入第(2)步;

如果爬虫处于非运行状态(前一天的爬取任务已完成,今天的尚未开始),进入第(3)步;

(2)脚本进入等待阶段,每隔10分钟,检查一下爬虫的运行状态,如(1)。但是一旦发现,脚本的等待时间超过了24小时,则自动退出脚本,因为第二天的监测脚本已经开始运行了,接替了它的任务。

(3)做一些爬虫启动前的准备工作(删除用来续爬的文件,防止爬虫不运行了),启动爬虫爬取数据,待爬虫正常结束后,退出脚本,完成当天的爬取任务。

4. 准备工作。

4.1. 标记爬虫的运行状态。

通过判断文件是否存在的方式来判断爬虫是否处于运行状态:

在爬虫启动时,创建一个isRunning.txt文件。

在爬虫结束时,删除这个isRunning.txt文件。

    以上就是本篇文章【python自动抓取网管软件的数据_python实现scrapy爬虫每天定时抓取数据的示例代码...】的全部内容了,欢迎阅览 ! 文章地址:http://sicmodule.kub2b.com/news/258.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 企库往资讯移动站 http://changmeillh.kub2b.com/ , 查看更多   
最新新闻
APP如何提升日活?
这次我们来说怎么提升日活。根据分解,日活提升=增加新用户+新用户留存提升+老用户促活+流失用户召回。上篇文字我们说了增加新用
一起少女失踪案背后的非法拘禁团伙。
点击上方“Python爬虫与数据挖掘”,进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤青山遮不住
华为手机抖音创作者服务指南:全方位解答创作疑问与技巧提升
华为手机抖音创作者服务指南:全方位解答创作疑问与技巧提升抖音作为当前更受欢迎的短视频平台吸引了众多创作者纷纷入驻。在创作
SEO天天说,到底什么是关键词(字)?
内容编辑应该重点注意内容优化、链接优化、关键字优化,今天主要来说说运营不可不掌握的基础技能SEO。一起来了解下什么是关键词
2019国考行测备考指导:排列组合中的四种常用方法进入阅读模式
2019国考行测备考指导:排列组合中的四种常用方法。更多2019国家公务员考试备考资料,欢迎访问中公国家公务员考试网。2019国考笔
大数据Hive Join连接查询
Hive join优化指的是通过调整Hive查询语句或者调整Hive配置参数来提高Hive join的性能。下面列举一些常见的Hive join优化方法:1
小黄 片怎样看才能发挥奇妙作用?研究发现——
Hello大家早上好,我是阿月。开始今天的科普之前,想问大家一个比较隐私的问题:你会看色情片吗?(方便的话可以投投票~)虽然部
90后的老叔叔老阿姨连美人鱼尾都没有,你还谈什么养生 小话题
大家好,我是90后老叔叔,我是朋克养生家族的一员,我为朋克养生带盐。立冬到了,意味着进入了寒冷的冬天,而养生保暖又一次的进
商丘师范学院智慧校园建设风采
  商丘师范学院智慧校园建设发展遵照“统筹规划、分步实施”“整体推进、突出重点”“需求驱动、务求实效”“立足高端、跨越发
丁真的笑容背后,是他们1000多个日夜的无声守护
近日藏族理塘小伙丁真因为一则短视频火了起来11月12日“藏族的康巴汉子有多帅”登上热搜收获4亿阅读量自那天以后丁真就成了微博
本企业新闻