Scrapy是用Python语言编写的一个爬虫框架,可以用于抓取web页面并提取结构化的数据。
如果要体验以下爬虫,Scrapy是一款学习成本比较低的爬虫框架,如果之前学习国Python,有一些Python的基础,那么通过看Scrapy官方的文档既可以完成一个简单的爬虫。

安装scrapy

说一说我安装scrapy的过程
操作系统是新安装的Ubuntu 18.04,自带了Python3.6,但是没有安装pip3,因此需要自己手动的安装以下pip3

cd /usr/bin
ln -s python3.6 python

这样在命令行直接敲python就可以执行python命令了

apt install python3-pip

安装pip3,然后建立pip与pip3的软链接

ln -s pip3 pip

选择pycharm作为python的IDE开发工具,这是关键,因为后面需要安装任何的扩展都是在pycharm的可视化界面来安装。
安装完pycharm之后,将pip源切换为阿里云的源,这样下载速度会快很多。
关于scrapy的安装是在pycharm-settings-project interpreter中进行的。
安装好scrapy之后,就可以通过命令来建立爬虫项目,以及新建一个爬虫。

scrapy startproject ProjectName
cd ProjectName
scrapy genderspider domain domain.name

这样在工程目录下就会有个domain.py的文件存在,接下来就可以开始开发自己的爬虫程序。

今天要说的是如何使用scrapy在内网用于数据的迁移。
爬虫程序的原理是完成适用于数据的迁移的。
在我们的企业内网,信息化建设这么多年,各式各样的应用系统有几百套,每一套都有不同的数据逻辑,对于那些使用多年的老的应用系统,沉淀了大量的历史数据,在特定的背景下,现在需要重新作数据的梳理,但是系统原班的开发队伍早就解散了,能把其中的数据关系说清楚的人很难找到。
所以,我觉得在这种情况下,可以考虑直接从业务系统的页面上来抓数据,尽管我们不知道原来数据库里是如何设计的,数据的关系是如何的,但是我们可以直接从结果页面上把最终的数据抓取,然后存盘,再做分析。

案例应用

这方面,我们遇到过一个比较明显的案例,需要统计各个电厂各台机组每天总的发电量和上网电量,而发电量和上网电量和根据很多块电表的读数经过比较复杂的核算之后得到的,这个功能是在智能电量采集系统里实现的,智能电量采集系统有一个页面显示每天的发电量和上网电量,因此,我们直接使用爬虫每天将这个页面的各个机组的发电量和上网电量的数据抓取并存盘,这样可以方便的进行统计分析展示,而这个过程并没有再去联系相关人员梳理各个电表的核算算法。

标签: 核电, python, scrapy, 信息化

添加新评论