当前位置: 首页 > news >正文

石家庄网站建设哪家专业平台设计网站公司电话

石家庄网站建设哪家专业,平台设计网站公司电话,排名网站建设,龙岩网站建设一般处理scrapy中包括多个pipeline时如何让spider执行制定的pipeline管道#xff11;:创建一个装饰器from scrapy.exceptions import DropItemimport functools当有多个pipeline时,判断spider如何执行指定的管道 def check_spider_pipeline(process_item_method): functools.wr… 处理scrapy中包括多个pipeline时如何让spider执行制定的pipeline管道:创建一个装饰器from scrapy.exceptions import DropItemimport functools当有多个pipeline时,判断spider如何执行指定的管道 def check_spider_pipeline(process_item_method):    functools.wraps(process_item_method)     def wrapper(self, item, spider):        # message template for debugging        msg %%s %s pipeline step % (self.__class__.__name__,)        if self.__class__ in spider.pipeline:#判断要执行的spider中是否包含所需的pipeline 如果有则执行否则抛出DropItem信息            spider.logger.debug(msg % executing)            return process_item_method(self,item,spider)        # otherwise, just return the untouched item (skip this step in        # the pipeline)        else:            spider.logger.debug(msg % skipping)            raise DropItem(Missing pipeline property)    return wrapper2:在每个spider所在的类中添加一个pipeline数组里面包含要执行的pipeline的名字 -*- coding: utf-8 -*-from scrapy.spiders import CrawlSpider,Rule# from scrapy.selector import Selectorfrom ..items import BotcnblogsItem,BotItemfrom scrapy.linkextractors import LinkExtractorimport refrom ..BotcnblogsPipeline import BotcnblogsPipelineclass CnblogsSpider(CrawlSpider):    pipeline set([BotcnblogsPipeline,])    #爬虫名称    name cnblogs    #设置允许的域名    allowed_domains [cnblogs.com]    #设置开始爬去的页面    start_urls (        http://www.cnblogs.com/fengzheng/,    )        rules(           Rule(LinkExtractor(allow(fengzheng/default.html\?page\([\d]))),callbackparse_item,followTrue),#            Rule(LinkExtractor(allow(fengzheng/p/([\d]).html)),callbackparse_info,followTrue),           )           3:在要执行的pipeline中的process_item方法加上装饰器这样就可以过滤pipeline了import jsonfrom .checkpipe import  check_spider_pipeline class BotcnblogsPipeline(object):        def __init__(self):        self.fileopen(jd.json,w)            check_spider_pipeline    def process_item(self,item,spider):        #此处如果有中文的话要加上ensure_asciiFalse参数否则可能出现乱码        recordjson.dumps(dict(item),ensure_asciiFalse)\n         self.file.write(record)        return item        def open_spider(self,spider):        print(打开爬虫了)            def close_spider(self,spider):        print(关闭爬虫)        self.file.close()   具体例子可以参考其中的cnblogs spider的例子 下载 转载于:https://www.cnblogs.com/fly-kaka/p/5216791.html
http://www.ihoyoo.com/news/48701.html

相关文章:

  • 专业网站 建设公司购物商城网站的制作
  • 网站 文件 上传哪里有做设备的
  • 宁波网站制作优化服务修改wordpress分类顺序
  • 北京网站制作建设公司万能浏览器手机版下载安装
  • 贵阳网站建设多钱钱厦门网站建设cnmxcm
  • 织梦模板更新网站优秀网站建设公司电话
  • 杭州网站建设哪家好企业网站管理系统设计报告
  • 大兴模版网站开发公司哪家好wordpress怎么添加会员中心
  • 国家高新区网站建设qq群推广网站免费秒进
  • 主题网站设计模板南京网站设计的公司
  • iis配网站中国服装设计公司前十名
  • 台州做网站优化哪家好数据查询网站
  • 营销型网站服务公司上海浦东新区娱乐场所最新通知
  • 移动网站开发认证万网 网站超市
  • 网站上传图片要求苏州网站制作出名 乐云践新
  • 罗湖商城网站建设哪家技术好wordpress mysqli
  • 网页设计怎么做网站网站服务器 重启
  • 如何做网站推广营销优秀网络小说推荐
  • 合肥网站建设模板系统国内crm系统哪家好
  • 网站图片素材下载工程建设公司起名大全集免费
  • 寿县城乡建设局网站wordpress关闭自适应
  • 麦包包网站建设特点学校资源网站建设
  • 陆丰网页设计网站建设和优化
  • 1.网站开发的详细流程简单免费的制图软件
  • 建设网站要不要工商执照东莞市电商网站建设
  • 企业型网站建设包括北京市建筑工程设计有限责任公司
  • 网站制作公司南宁专业做网站 上海
  • 百度做网站需要多少钱静海集团网站建设
  • 东莞php网站开发网站推广网站
  • 商洛高新建设开发集团网站深圳招聘网站排行