网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
成为超级会员,使用一键签到
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
03月31日
漏签
0
天
python吧
关注:
472,899
贴子:
1,962,853
看贴
图片
吧主推荐
视频
游戏
1
2
3
下一页
尾页
34
回复贴,共
3
页
,跳到
页
确定
<<返回python吧
>0< 加载中...
想成为python爬虫大神,必须先弄懂这些!
只看楼主
收藏
回复
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
一、网络爬虫的基本结构及工作流程
一个通用的网络爬虫的框架如图所示:
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
二、从爬虫的角度对互联网进行划分
对应的,可以将互联网的所有页面分为五个部分:
简历之家
python
简历模板_求职
python
简历模板_
python
简历模板下载_在线制作简历。
2025-03-31 10:17
广告
立即查看
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
1.已下载未过期网页
2.已下载已过期网页:抓取到的网页实际上是互联网内容的一个镜像与备份,互联网是动态变化的,一部分互联网上的内容已经发生了变化,这时,这部分抓取到的网页就已经过期了。
3.待下载网页:也就是待抓取URL队列中的那些页面
4.可知网页:还没有抓取下来,也没有在待抓取URL队列中,但是可以通过对已抓取页面或者待抓取URL对应页面进行分析获取到的URL,认为是可知网页。
5.还有一部分网页,爬虫是无法直接抓取下载的。称为不可知网页。
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
三、抓取策略
在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策略:
1.深度优先遍历策略
深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
我们以下面的图为例:
遍历的路径:A-F-G E-H-I B C D
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
2.宽度优先遍历策略
宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。还是以上面的图为例:
遍历路径:A-B-C-D-E-F G H I
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
3.反向链接数策略
反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。
在真实的网络环境中,由于广告链接、作弊链接的存在,反向链接数不能完全等他我那个也的重要程度。因此,搜索引擎往往考虑一些可靠的反向链接数。
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
4.Partial PageRank策略
Partial PageRank算法借鉴了PageRank算法的思想:对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。
如果每次抓取一个页面,就重新计算PageRank值,一种折中方案是:每抓取K个页面后,重新计算一次PageRank值。但是这种情况还会有一个问题:对于已经下载下来的页面中分析出的链接,也就是我们之前提到的未知网页那一部分,暂时是没有PageRank值的。为了解决这个问题,会给这些页面一个临时的PageRank值:将这个网页所有入链传递进来的PageRank值进行汇总,这样就形成了该未知页面的PageRank值,从而参与排序。
济南仕亚信息科技有限公司
python
一次下载长期使用,全系列版本都有,安装简单,致力用户高效开发,
python
支持远程协助安装,支持重置,使用便捷放心。
2025-03-31 10:17
广告
立即查看
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
6.大站优先策略
对于待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载。这个策略也因此叫做大站优先策略。
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
八车间制造网
举人
4
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
如果遇到蜘蛛池就尴尬了,最好有主url的最大深度
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
虽然这些比较全面,但在实际中,我们需要懂得变通
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
大神教学
贴吧用户_QySDU3Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
熊猫办公
熊猫办公
python
,全新AI写作助手,支持创意文案/智能问答/整理大纲/办公使用等各种功能.
python
,领先的AI写作工具,3分钟快速高效得到想要内容。
2025-03-31 10:17
广告
立即查看
学习小白
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
嗯,值得参考,感谢楼主
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示