爬虫小器合集 | 不会见编程也会爬数据

时下的主流爬虫手段是为此Python编程,Python的无敌毋庸置疑,但新家学习Python还是得一两单月时间之。有没发生一对还简明的爬取数据方式呢?答案是有,DataCastle为你准备了如下小器,对于每个微器而唯有需要花费十几分钟时间,跟着我之手续走相同通就是足以操纵它啦~

一、Microsoft Excel

率先让大家一个用Excel爬取多少的主意,这里用之Microsoft Excel
2013版,下面手把手开始教学~

(1)新建Excel,打开她,如下图所示

(2)点击“数据”——“自网站”

(3)在弹出的对话框中输入目标网址,这里坐全国实时空气质量网站啊条例,点击转至,再导入

分选导入位置,确定

(4)结果一旦下图所著,怎么样,是免是雅赞?

(5)如果如实时更新数据,可以于“数据”——“全部翻新”——“连接属性”中展开设置,输入更新频率即可

二、Google Sheet

采取Google
Sheet爬取多少前,要保证三触及:使用Chrome浏览器、拥有Google账号、电脑已经翻墙。如果就三只极具备了吧,下面我们就是起吧~

(1)打开Google
Sheet网站:

(2)在首页上点击“转至Google表格”,然后登录自己的账号,可以看到如下界面,再点击“+”创建新的报表

新建的表如下:

(3)打开要爬取的靶子网站,一个全国实时空气质量网站
,目标网站上的表格结构要下图所示

(4)回到Google sheet页面,使用函数=IMPORTHTML(网址, 查询,
索引),“网址”就是要爬取数据的靶子网站,“查询”中输入“list”或“table”,这个在数量的切切实实组织类型,“索引”填阿拉伯数字,从1从头,对承诺正在网站被定义之哇一样客报表或列表

对咱们只要爬取的网站,我们当Google
sheet的A1单元格中输入函数=IMPORTHTML(“http://www.pm25.in/rank”,”table”,1),回车后就爬得多少啦

(5)将爬取好之报表存到地方

是免是发超级简单?

三、you-get

旋即是一个程序员基于python
3开发的类,已经在github上面开源,支持64只网站,包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……总的若可知体悟的网站还发!
还有一个私科技的地方,即使是榜及从未有过底网站,当你输入链接,程序吗会蒙你想只要生充斥什么,然后帮你下载。当然you-get要于python3条件下开展安装,用pip安装好后,在终点输入“you
get+你想生充斥资源的链接”就得当正藏资源了。

此处吃一个you-get的中文使用说明,按照说明上写的准步骤操作就好啊。

未完待续……以后DataCastle还见面继续补部分简便好用底爬虫小器的,记得支持一下哪~

发表评论

电子邮件地址不会被公开。 必填项已用*标注