玩爬虫也有很长一段时间了,一直没做一个记录,经常在同一个坑中跌倒,做个记录吧。
1.ImportError: Error loading object ‘scrapy.core.downloader.handlers.s3.S3DownloadHandler’: No module named win32api
安装pywin32 : http://sourceforge.net/projects/pywin32/
2.新版本(1.0+)如果spider再继承于scrapy.spider 不会执行rules,被这坑了好久,果断看了官方文档,发现变动还挺大的,几个包都变了
from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule spider也得继承于CrawlSpider,如果不重载parse,会自动根据rules抓取