python爬虫采集遇到的问题及解决

python爬虫采集遇到的问题及解决

 1、编码问题。

网站目前最多的两种编码:utf-8,或者gbk,当我们采集回来源网站编码和我们数据库存储的编码不一致时,比如http://163.com的编码使用的是gbk,而我们需要存储的是utf-8编码的数据,那么我们可以使用Python中提供的encode()和decode()方法进行转换,比如:content = content.decode(‘gbk’, ‘ignore’)   #将gbk编码转为unicode编码。

content = content.encode('utf-8', 'ignore')  #将unicode编码转为utf-8编码

中间出现了unicode编码,我们需要转为中间编码unicode,才能向gbk或者utf-8转换。

2、增量爬取。

增量爬行是爬虫不重复下载下载的内容。为了实现增量爬行,我们需要使用一个新的概念——网址池。网址池用于统一管理所有网址。我们通过网址池记录我们的python爬虫访问过哪些内容,以避免重复。网址池的用途也可以实现断点续爬等。断点续爬是让之前没有爬过的网址继续爬虫。

3、爬虫被禁止。

爬虫会给服务器带来很大的负载,所以很多服务器会限制爬虫,甚至禁用爬虫。众所周知,要构建合理的http访问头,比如user-agent域的值。但是,还有很多其他避免被禁止的问题,比如放慢爬虫的访问速度,让爬虫的访问路径与用户的访问路径一致,采用动态ip地址等等。



微信扫描下方的二维码阅读更多精彩内容

python爬虫采集遇到的问题及解决

每日分享到群里,或者推荐给朋友会得大量积分,机会可以兑换微信零钱红包,具体请点击这里,得到了微信红包可以用来支持大飞哥

大飞哥能不能加鸡腿就看各位了!

赞赏请扫

开发者微信

大飞哥微信

开发者微信反馈BUG或者VIP可以添加,其他情况反馈可能不及时,见谅

版权声明

初衷是提供高清手机电脑壁纸等图片素材免费分享下载,禁止商用。图片素材来源网络,版权归原作者所有,若有侵权问题敬请告知我们!

【友情提醒】:

因平台原因不易展示大尺度写真,有的写真展示越少代表此套写真越性感,特别是xiuren等写真每一套写真完整套图50-100张不等。更多内容的欣赏请移步 点击这里

【更多图集移步】: 每日更新-点击这里
漂亮小姐姐-点击这里
性感美女-点击这里
清纯女孩-点击这里
xiuren专栏-点击这里
整站资源下载-点击这里

相关新闻