快捷搜索:

也能轻松爬数据,网页抓取工具之数据预处理

2019-11-18 15:30栏目:计算机网络
TAG:

二、下面讲解单任务规则制作:
1、内容规则的制作,很多人到现在可能都还不明白火车采集器好在哪,现在讲的这个绝对是火车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
火车采集器是不需要经过网址规则制作即可直接进入内容采集,这样你就可以根据站点的难易决定是否采集选定的目标源,而不必等到网址采集后才发现原来这个网站你没办法采或者根本不值得你浪费这个时间(前面的时间白搭了!)。
火车v3.0最大的功能之一既是可以继承站点的规则,只要你前面制作的规则通用,那么在接下来的所有任务都不需要再制作内容采集规则了。由于前面我们制作的内容采集规则通用,所以这边的规则我们就不用讲解了,直接继承站点的,如图:
澳门金莎娱乐 1
2、网址采集规则制作
步骤:“新建”——“新建任务”,其他的操作如下图:
澳门金莎娱乐 2
作规则需要善于去发现规律性的东西,作到这点采集就没什么问题了。我们要采集示例的地址在这
这板只采集其中的1-3页作为范例。我们发现每个叶面的网址开始前面都包含“过往娱乐热点”结束都是“第1 2……页”,所以请到html源代码里面拷贝对应的代码,到特定区域采集范围中,另外,网址中必须包含“/06/” 这样网址采集就搞定了(简单吧,自己试试看),如下图:
澳门金莎娱乐 3
3、发布方式。发布方式有5种,这边以最常用的“在线发布”为例。
选定web在线发布到网站,点击“定义全局发布方式”,然后按系统提示的步骤:选定发布模块——》填写网站/cms根地址——》使用火车内置浏览器登陆——》登陆后关闭内置浏览器——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务——》发表 如下图高亮的部分是你要操作的步骤,从左到右从上到下:
澳门金莎娱乐 4
下面是刚才我采集到本地论坛采集测试的两个截屏:
澳门金莎娱乐 5澳门金莎娱乐 6

火车头是比较火的采集器,弄懂采集器的运行原理比较重要,那么火车头的采集器基本的采集方法是什么呢,我给讲讲免费版的基本采集方法。

①内容不得包含和内容必须包含:可以设置多个词,支持选择所有条件都必须满足或满足其中一个条件即可。

2.八爪鱼

作为内容开始的标志。澳门金莎娱乐 7
接下来看内容结束标志,如下两图:
澳门金莎娱乐 8 澳门金莎娱乐 9
下面是根据我么设置规则采集回来的内容
澳门金莎娱乐 10
一般来说我们从开始标志到结束标志所采集回来的内容中都会包含有必须排除的内容或广告,或链接。这边我们需要排除的内容是“相关专题>>> 第六届金鹰电视艺术节”。排除的方法是,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部分用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现在的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在这边我只抽取“明星、图片、电影”作为列子跟大家讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
这个页面刚好有分页,所以就顺便讲下上下页的设置。他这边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名字(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:
澳门金莎娱乐 11
这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部分替换成"(*)"即可。由于他这边没有广告,所有整站规则就算制作完毕,点击保存进入单任务制作。好了,整站规则就讲这两个标签,其他的根据需要自己按上面的步骤添加,记住,万变不离其宗。其他的问题请到火车采集器论坛:http://bbs.locoy.com 探讨。

  1. 1

    下载安装火车头采集器,有付费与免费版,百度查找下载地址。(这里不细说)

  2. 2

    下载好后,双击火车头图标打开采集器。

    澳门金莎娱乐 12

  3. 3

    进入火车头主程序页面。

    澳门金莎娱乐 13

  4. 4

    单击新建的黑小三角,新建任务。

    澳门金莎娱乐 14

  5. 5

    填写任务名,点击第二步。(采集网址不截了,以防广告)

    澳门金莎娱乐 15

  6. 6

    分析目标页面,找到要采集的内容。

    澳门金莎娱乐 16

  7. 7

    查看源文件,找到要采的内容(复制内容去搜索)

    澳门金莎娱乐 17

  8. 8

    建议用360浏览器或者360极速浏览器,找到目标内容,分析目标内容前后的代码。

    澳门金莎娱乐 18

  9. 9

    此时标题的前后代码为“<h2>”、“</h2>”。

    澳门金莎娱乐 19

  10. 10

    双击采集器“标题”。

    澳门金莎娱乐 20

  11. 11

    选择前后截取,把前后代码分别填进去,如图。

    澳门金莎娱乐 21

  12. 12

    或者,选择正则提取,如图,点击确认。

    澳门金莎娱乐 22

  13. 13

    标题采集规则制作完成,开始分析其他标签规则。

    内容中有不要的代码(如图div代码不要),可以排除。

    澳门金莎娱乐 23

  14. 14

    双击内容,进入数据处理,点击添加,出现菜单,选择html标签过滤。

    澳门金莎娱乐 24

  15. 15

    勾选不要的代码。

    澳门金莎娱乐 25

  16. 16

    检查要的内容是否全部采集进来了。

    澳门金莎娱乐 26

比如是一个直接的图片地址 ,或者不规则的图片源码,采集器将会视为文件下载。

      据说用户量一直在同类软件中稳居第一,毕竟是十一年的老司机,想当年小编我学习数据挖掘的时候,老师推荐使用的也是这款软件呢。

以采集示例详解部分功能
今天要给大家做示例的网站是163的 娱乐频道 这个应该是个比较通用和实用的规则,下面开始。
如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间。以下是一些采集的基本步骤,您可以灵活运用:
一、建立站点
1、请先打开火车采集器,新建站点,看下图:
澳门金莎娱乐 27
为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图澳门金莎娱乐 28
大部分的站点,通站往往只有一套模版或者有几套类似的模版,这边所谓的类似讲的是模版中的标记很接近,那什么是模版标记?模版标记指的是某部分内容开始和结束记号。比如很多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部分用类似于或

⑤纯正则替换:如果一些内容(比如单一出现的文字)无法通过通用的内容替换来操作,那么则需要通过强大的正则表达式进行复杂的替换。

澳门金莎娱乐 29

等标志来表示内容的开始。他们这么作的原因有两个,一个是由于内容多,为了各个部门之间的配合而作了对应的标记以便于工程的交接,另一个原因就是内容控制的需要,随着xhtml的流行,用层控制越来越多,这就使得我们寻找采集标示越来越简单(这点你们以后会慢慢理解的)。上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。
2、标题标签讲解。对应的页面在这:
首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发现按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或者选种标题标签在点击修改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:
澳门金莎娱乐 30
3、内容标签讲解。制作采集规则(任务)的任何一个标签最重要的就在于寻找开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是火车采集器并不需要这么作,你要找的只需要是从上到下第一个标志就可以了,我的意思是说,html代码中允许有n个相同的开始(结束,下同)标志,但是只要这个位于我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以 为例,我们发现他的内容从“进入论坛”,因此双击代码测试框,查找需要的代码,如图:
澳门金莎娱乐 31
我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部分,我以

如“火爆的美式餐厅都在这里”,我们将其替换为“美式餐厅”,正则表达式如下:

     此外,对于采集到的信息数据,它还可以对其进行一系列的智能处理,使采集到的数据更加符合我们的使用标准。比如过滤掉不需要的空格啦,标签啦,同义词替换啦,繁简转换啦等等。

注意:文件下载中所指下载图片是源代码里有标准样式标签的图片地址。

      据说规则的配置也是hin简单。操作上2分钟就可以快速入门。看了一下操作页面,流程基本上是所见即所得,整个流程也是可视化的,确实比火车头要简单些。

①提取内容为空:如果通过前面的规则无法准确提取或提取到的内容为空,则选择此项,此项应用后会使用正则匹配从原始页面中再次提取一次。

      产品和运营在日常工作中,常常需要参考各种数据,来为决策做支持。

④探测文件并下载:勾选后可以把采集到的任何格式的文件附件下载下来。

        这个工具,也可以说是非常厉害了。完全可视化操作,无需编程基础,熟悉电脑操作就可以轻松掌握。整个采集过程也是所见即所得,遍历的链接信息、抓取结果信息、错误信息等都会及时地反映在软件界面中。《贵阳大数据分析师培训机构》

④字符截取:通过开始和结束字符串对内容进行截取。适用于对已提取内容的截取调整。

      这个是很老牌的网站数据采集工具啦,从诞生至今已经十一年了。经过不断的更新迭代,功能也越来越多 (只是有些高级功能已经要收费了QAQ) 。《贵阳大数据认证》

提取的数据还不能直接拿来用?文件还没有被下载?格式等都还不符合要求?别着急,网页抓取工具火车采集器自有应对方案——数据处理。

     于是产品和运营们往往要借助爬虫来抓取自己想要的数据。比如想要获取某个电商网站的评论数据,往往需要写出一段代码,借助python去抓取出相应的内容。

⑨补全单网址:将当前内容作为一个网址进行补全。

澳门金莎娱乐 32

②内容替换/排除:将采集到的内容进行字符串替换,如需排除,则替换为空字符串即可,功能很灵活。如下图,可直接对内容进行替换,也可对字符串进行参数替换等(区别于工具栏中的同义词替换)。

澳门金莎娱乐 33

⑦智能提取:包括提取第一张图片、智能提取时间、智能提取邮箱、智能提取手机号码、智能提取电话号码。

     这就意味着,它不仅能抓取文本数据、图片、表格,其他可视化图表,如新闻资讯图表、电商网站上的产品介绍图片、电商经营分析数据还是指数走势图等等,它都能抓取到完整的图表信息。

⑧高级功能:包括自动摘要、自动分词、自动分类、Http请求、字符编码转换、同义词替换、空内容缺省值、内容加前后缀、随机插入、运行C#代码、批量内容替换,统计标签字符串长度等一系列功能。

澳门金莎娱乐 34

②下载图片:勾选后源代码里的含标准样式的代码图片将被下载。

      火车采集器可以实现数据的抓取、清洗、分析,挖掘及最终的可用数据呈现,堪称一条龙服务。

网页抓取工具的数据处理功能包括三个部分,分别是内容处理、文件下载、内容过滤。下面依次给大家介绍:

而且,它还能模拟鼠标动作,抓取在指数图表上悬浮显示的数据。《中国数据分析行业权威认证》

②采集结果不得为空:该功能可以让某个字段不出现空内容。

      它的采集方式有一个亮点,就是云采集。也就是说,当你配置好采集任务,即使关机出去浪,任务也可以接着在云端执行,等浪完回来,数据就采好了。这就不用担心网络中断,辛辛苦苦采集的数据没了,也不用一直守在电脑旁边等数据采集完。

2、文件下载:可以自动探测并下载文件,可设置下载路径和文件名样式。

      它的第一个特点是适用范围广,采集数据准确。火车采集器的采集原理是基于 web 结构的源代码提取,所以几乎适用于所有的网页,以及网页中能够看到的所有内容。可以通过设定内容采集规则,轻松迅速地抓取网页上散乱分布的文本、图片、压缩文件、视频等内容比如采集豆瓣读书网站上的书籍的标题以及作者的数据,但是页面上有图片,也有文字,只要才采集的时候设定好采集的规则,就能精准地只采集到标题名和作者的名字。《贵阳大数据学习》

3、内容过滤:对于一些不符合条件的记录,可以通过设置内容过滤来删除或标记为未采。内容过滤有以下几个处理方法:

     那么问题来了,有没有什么更方便的方法呢?

①将相对地址补全为绝对地址:勾选后会把标签采集到的相对地址补全为绝对地址。

     重点是,这三个软件的基础功能都是可以免费使用的喔~

⑥数据转换:包括将结果简转繁、将结果繁转简、自动转化为拼音和时间修正转化,共计四项处理。

澳门金莎娱乐 35

1、内容处理:对从内容页面提取的数据进行替换、标签过滤、分词等进一步处理,我们可以同时添加多个操作,但这里需要注意的是,有多个操作时是按照从上到下的顺序来执行,也就是说,上个步骤的结果会作为下个步骤的参数。

      这也是一个号称什么网站都能采的工具。电商类、生活服务类、社交媒体类、论坛类,甚至瀑布流类的网站都可以采集。

下面来逐个介绍一下:

      并且,火车采集器的内容采集支持测试功能,可选用一个典型页面来测试内容采集的正确性,以便及时更正和进行下一步数据处理。

④当内容长度小于(大于,等于,不等于)N时过滤:一个符号或一个字母或一个数字或一个汉字都计作一个。

澳门金莎娱乐 36

网页抓取工具火车采集器中配备一系列数据处理的好处是,当我们需要进行的只是一个很小的操作时,不需要再去写插件,去生成和编译,而是通过一步点击就可以将数据处理成我们需要的样子了。

澳门金莎娱乐 37

1.火车采集器

注意:对于满足上述四条中的任何一条或者多条的情况下,可以在采集器的其他设置功能里设置直接删除此条记录,或把此条记录标记为未采集下次运行任务时会再次采集。

澳门金莎娱乐 38

③采集结果不得重复:该功能可以让某个字段不出现重复内容。设置此项前请确保没有采集过数据,或者需先清空采集数据。

      在抓取规则的详情页面,只要仔细考察一个规则的抓取结果是否满足您的需要,如果满足,只需点击“下载”按钮,即可在会员中心一键启动集搜客网络爬虫,抓取到你想要的数据。

③html标签过滤:过滤指定html标签,比如

      集搜客还有一个优势,在于可以抓取可视化图表上的数据。现在有越来越多网站上的数据是经过统计、分析、挖掘,并用可视化图表展示出来的,比如淘宝指数,百度指数等等。它都可以直接从这些图表上,把数据抓取下来。《贵阳大数据认证》

③探测文件真实地址但不下载:有时候采集到的是附件下载地址,而非真实的下载地址,点击后会有跳转。这种情况下勾选此项会将真实地址采集出来,但是只是得到下载地址并不下载。

       但是很多小白同学在初次设置抓取规则的时候,还是需要摸索一阵,才能得到自己想要的结果的。集搜客的抓取规则模板库,就可以帮你省去摸索抓取规则花费的时间。《贵州大数据培训》

澳门金莎娱乐 39

     但实际情况是,对于日常工作中的各种小决策,内部提供的数据有时还不足给予充分支持,外部的数据大部分又往往都是机构出具的行业状况,并不能提供什么有效帮助。

澳门金莎娱乐 40

     看到这里有同学要问了,说了这么多,还是不知道怎么操作,怎么破。别担心,火车采集器的网站上,还有提供新手的入门手册和视频教程,不懂的问题可以在论坛内提问,也可以在论坛里跟着大神快速学习火车采集器的操作。《贵阳大数据培训》

       它有一个强大的优势,拥有一个抓取规则的模板库。我们都知道,采集数据需要给工具提供抓取规则,这个规则就相当于是告诉爬虫工具,你需要抓取的数据所具备的特征。因此抓取规则直接决定了你抓到数据的准确度和精细程度。《澳门金莎娱乐,贵阳数据分析人才培训》

      说到学写代码……额,我选择放弃。

澳门金莎娱乐 41

      云采集还有一个好处在于,可以利用云端多节点并发运行,采集速度将远超于本地采集(单机采集)。多 IP 在任务启动时自动切换还可避免网站的 IP 封锁,实现数据采集的最大化。《贵州数据分析培训班》

       在集搜客资源库中,分门别类存放着各种抓取规则,你既可通过关键词,也可通过目标网页网址搜索到可用的抓取规则。《贵阳大数据学习》

     今天就为大家介绍3个能适应大多数场景的数据采集工具,即使不懂爬虫代码,你也能轻松爬出95%网站的数据。

3.集搜客

     以上3个数据采集工具各有利弊,选择适合的学习使用,是不是比写代码方便多了呢?

      就算不知道软件怎么使用,网站上有教程中心,也一样提供免费的新手入门教程,供大家快速学习软件的操作方法。《贵州大数据培训机构》

      比如说,你想采集豆瓣读书里几百本书的评论,但你不确定一次性抓取下来的数据是否准确。你就可以通过测试,先抓其中几个网页测试一下,看看抓到的结果是否是你想要的结果,并根据结果对采集规则进行调整,直到测试出来的结果是让你满意的结果为止,然后再进行大规模的采集。这样就不怕采集出来的数据出错啦。《贵州大数据培训》

版权声明:本文由澳门金莎娱乐发布于计算机网络,转载请注明出处:也能轻松爬数据,网页抓取工具之数据预处理