脚下的主流爬虫手段是用Python编制程序,Python的强有力毋庸置疑,但初学者学习Python照旧须要1三个月时间的。有未有部分更简便易行的爬取数据方式吧?答案是部分,DataCastle为你准备了之类小工具,对于各类小工具你只须求花十几分钟时间,跟着自个儿的步调走一遍就足以控制它啦~

一、Microsoft Excel

率先教大家贰个用Excel爬取多少的章程,那里用的Microsoft Excel
201三本子,下边手把手起头教学~

(1)新建Excel,打开它,如下图所示

(2)点击“数据”——“自网站”

(三)在弹出的对话框中输入目的网站,那里以全国实时间和空间气质量网址为例,点击转到,再导入

分选导入地点,明确

(4)结果如下图所示,怎么着,是或不是十分的赞?

(5)倘诺要实时更新数据,可以在“数据”——“全部翻新”——“连接属性”中展开设置,输入更新频率即可

二、Google Sheet

选取谷歌(Google)Sheet爬取多少前,要保管三点:使用Chrome浏览器、拥有谷歌账号、电脑已翻墙。借使那八个标准具备了的话,上边大家就早先吧~

(1)打开Google
Sheet
网站:

(2)在首页上点击“转到谷歌(Google)表格”,然后登录本人的账号,能够见见如下界面,再点击“+”成立新的表格

新建的表格如下:

(3)打开要爬取的目的网址,二个全国实时间和空间气品质网站
,指标网址上的报表结构如下图所示

(肆)回到谷歌(Google) sheet页面,使用函数=IMPOLANDTHTML(网站, 查询,
索引),“网站”正是要爬取数据的对象网站,“查询”中输入“list”或“table”,那几个取决于数量的有血有肉协会类型,“索引”填阿拉伯数字,从一开始,对应着网址中定义的哪一份报表或列表

对于我们要爬取的网站,我们在谷歌sheet的A壹单元格中输入函数=IMPOKugaTHTML(“http://www.pm25.in/rank“,”table”,一),回车后就爬得多少啦

(5)将爬取好的报表存到当地

是不是深感一流简单?

三、you-get

那是一个程序员基于python
三开发的项目,已经在github上边开源,匡助陆十四个网址,包含优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……由此可见你能想到的网站都有!
还有二个黑科技(science and technology)的地点,固然是名单上未有的网址,当您输入链接,程序也会嫌疑你想要下载什么,然后帮你下载。当然you-get要在python三条件下展开设置,用pip安装好后,在巅峰输入“you
get+你想下载能源的链接”就足以等着收藏能源了。

这里给贰个you-get的普通话使用验证,依据表达上写的按步骤操作就能够啦。

未完待续……现在DataCastle还会持续补充部分简练好用的爬虫小工具的,记得帮助一下啦~

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图