python如何重写start_requests方法
说明
1、在scrapy中,start_url是由start_requests处理的,通过重写这种方法,start_url可以携带请求头信息。
2、cookie不能放在scrapy中的headers中,在构建请求时有专门的cookies参数,可以接收字典形式的cookie。
可能需要在settings中设置ROBOTS协议和USER_AGENT。
实例
import scrapy class Git1Spider(scrapy.Spider): name = 'git1' allowed_domains = ['github.com'] start_urls = ['https://github.com/GitLqr'] def start_requests(self): """ 重写start_requests,发送携带cookies的Request。 默认start_requests只是普通的get请求,不会携带自定义的头信息 """ url = self.start_urls[0] temp = '_octo=GH1.1.1045146750.1615451260; _device_id=cd8d64981fcb3fd4ba7f587873e97804' # 把cookies字符串转成字典 cookies = {data.split('=')[0]: data.split('=')[-1] for data in temp.split('; ')} yield scrapy.Request( url=url, callback=self.parse, cookies=cookies ) def parse(self, response): print(response.xpath('/html/head/title/text()').extract_first())
微信扫描下方的二维码阅读更多精彩内容
每日分享到群里,或者推荐给朋友会得大量积分,机会可以兑换微信零钱红包,具体请点击这里,得到了微信红包可以用来支持大飞哥
大飞哥能不能加鸡腿就看各位了!
开发者微信
开发者微信反馈BUG或者VIP可以添加,其他情况反馈可能不及时,见谅
版权声明
初衷是提供高清手机电脑壁纸等图片素材免费分享下载,禁止商用。图片素材来源网络,版权归原作者所有,若有侵权问题敬请告知我们!
【友情提醒】:
因平台原因不易展示大尺度写真,有的写真展示越少代表此套写真越性感,特别是xiuren等写真每一套写真完整套图50-100张不等。更多内容的欣赏请移步 点击这里
【更多图集移步】:
每日更新-点击这里
漂亮小姐姐-点击这里
性感美女-点击这里
清纯女孩-点击这里
xiuren专栏-点击这里
整站资源下载-点击这里