python如何重写start_requests方法

python如何重写start_requests方法

说明

1、在scrapy中,start_url是由start_requests处理的,通过重写这种方法,start_url可以携带请求头信息。

2、cookie不能放在scrapy中的headers中,在构建请求时有专门的cookies参数,可以接收字典形式的cookie。

可能需要在settings中设置ROBOTS协议和USER_AGENT。

实例

import scrapy
 
 
class Git1Spider(scrapy.Spider):
    name = 'git1'
    allowed_domains = ['github.com']
    start_urls = ['https://github.com/GitLqr']
 
    def start_requests(self):
        """
        重写start_requests,发送携带cookies的Request。
        默认start_requests只是普通的get请求,不会携带自定义的头信息
        """
        url = self.start_urls[0]
 
        temp = '_octo=GH1.1.1045146750.1615451260; _device_id=cd8d64981fcb3fd4ba7f587873e97804'
        # 把cookies字符串转成字典
        cookies = {data.split('=')[0]: data.split('=')[-1] for data in temp.split('; ')}
 
        yield scrapy.Request(
            url=url,
            callback=self.parse,
            cookies=cookies
        )
 
    def parse(self, response):
        print(response.xpath('/html/head/title/text()').extract_first())


微信扫描下方的二维码阅读更多精彩内容

python如何重写start_requests方法

每日分享到群里,或者推荐给朋友会得大量积分,机会可以兑换微信零钱红包,具体请点击这里,得到了微信红包可以用来支持大飞哥

大飞哥能不能加鸡腿就看各位了!

赞赏请扫

开发者微信

大飞哥微信

开发者微信反馈BUG或者VIP可以添加,其他情况反馈可能不及时,见谅

版权声明

初衷是提供高清手机电脑壁纸等图片素材免费分享下载,禁止商用。图片素材来源网络,版权归原作者所有,若有侵权问题敬请告知我们!

【友情提醒】:

因平台原因不易展示大尺度写真,有的写真展示越少代表此套写真越性感,特别是xiuren等写真每一套写真完整套图50-100张不等。更多内容的欣赏请移步 点击这里

【更多图集移步】: 每日更新-点击这里
漂亮小姐姐-点击这里
性感美女-点击这里
清纯女孩-点击这里
xiuren专栏-点击这里
整站资源下载-点击这里

相关新闻