python 爬虫(三) spider类

python 爬虫(三) spider类

发布时间：2019-09-06 08:52:55编辑：auto阅读（2273）

Spider就是定义爬取的动作及分析网站的地方。

spider原理
以初始的URL**初始化Request**，并设置回调函数。当该request**下载完毕并返回时，将生成**response ，并作为参数传给该回调函数。
初始化request —> start_requests()
start_requests() 读取 start_urls 中的URL，并以 parse 为回调函数生成 Request 。
回调处理parse(self,response)
以使用选择器(Selectors)或者BeautifulSoup 来分析网页内容，返回 Item 对象或者 Request
返回的Request对象之后scrapy 会跟进处理进入下一轮的循环
返回item 会进Item Pipeline 处理数据

4.spider 属性方法

name
定义spider名字的字符串
allowed_domains
可选。包含了spider允许爬取的域名(domain)列表(list)
start_urls
URL列表。当没有制定特定的URL时，spider将从该列表中开始进行爬取
start_requests()
当spider启动爬取并且未制定URL时，该方法被调用。可用于批量生成初始url
parse()
当response没有指定回调函数时，该方法是Scrapy处理下载的response的默认方法。
log()
使用 scrapy.log.msg() 方法记录(log)message。
closed()
当spider关闭时，该函数被调用。

关键字：

上一篇： Python -- 三元表达式（三目运算

下一篇： python: 自动去除空行



搜索

热门推荐

最新文章

Ubuntu本地部署dots.ocr
 81°
Python搭建一个RAG系统(分片/检索/召回/重排序/生成)
 2278°
Browser-use:智能浏览器自动化(Web-Agent)
 2971°
使用 LangChain 实现本地 Agent
 2476°
使用 LangChain 构建本地 RAG 应用
 2418°
使用LLaMA-Factory微调大模型的function calling能力
 3023°
复现一个简单Agent系统
 2430°
LLaMA Factory-Lora微调实现声控语音多轮问答对话-1
 3234°
LLaMA Factory微调后的模型合并导出和部署-4
 5333°
LLaMA Factory微调模型的各种参数怎么设置-3
 5152°

博主信息

姓名：Run
职业：谜
邮箱：383697894@qq.com
定位：上海 · 松江

扫我打开

友情链接

百度 淘宝 腾讯 慕课网 CSDN 博客园 51cto博客