scrapy选择器xpath

发布时间：2017-12-13 22:24:27编辑：Run阅读（7199）

Scrapy提取数据有自己的一套机制，它们被称作选择器(seletors),通过特定的Xpath或者css表达式来"选择"html文件中的某个部分。

Xpath是一门用来在XML文件中选择节点的语言，也可以用在HTML上，css是一门将HTML文档样式化的语言，选择器由它定义，并与特定的HTML元素的样式相关联

Scrapy的选择器构建与lxml库之上，这意味着他们在速度和解析准确性上非常相似

Xpath是一门在XML文档中查找信息的语言，Xpath可用来在XML文档中对元素和属性进行遍历。Xpath含有超过100个内建的函数，这些函数用于字符串值，数值，日期和时间比较，节点和QName处理，序列处理，逻辑值等等。

XPath，有7种类型节点：元素，属性，文本，命名空间，处理指令，注释以及文档节点

练习代码如下

<superhero>
    <class>
        <name>Tony Stark </name>
        <alias>Iron Man </alias>
        <sex>male </sex>
        <birthday>1969 </birthday>
        <age>47 </age>
    </class>
    <class>
        <name>Peter Benjamin Parker </name>
        <alias>Spider Man </alias>
        <sex>male </sex>
        <birthday>unknow </birthday>
        <age>unknow </age>
    </class>
    <class>
        <name>Steven Rogers </name>
        <alias>Captain America </alias>
        <sex>male </sex>
        <birthday>19200704 </birthday>
        <age>96 </age>
    </class>
</superhero>

Xpath使用路径表达式在XML文档中选取节点，常用路劲表达式如下：

表达式描述

nodeName 选取此节点的所有子节点

/ 从根节点选取

// 从匹配选择的当前节点选择文档中的节点，不考虑它们的位置

. 选取当前节点

.. 选取当前节点的父节点

@ 选取属性

* 匹配任何元素节点

@* 匹配任何属性节点

Node() 匹配任何类型的节点

下面用Xpath选择器来"采集"XML文件所需要的内容

在pycharm上面创建superHero.xml文件，把上面的xml内容导入，进行练习

准备工作,如下

上面这段代码的意思是：导入scrapy.selector模块中的Selector,打开superHero.xml文件，并将内容写入到变量body中，然后使用XPath选择器显示superHero.xml文件中的所有内容，执行结果如下

下面来看XPath选择器“收集”数据

练习1，代码如下

print('采集superHero.xml中第一个class的内容')

Selector(text=body).xpath('/html/body/superhero/class[1]').extract()

执行结果

可以对比下之前的superHero.xml文件，看选择的第一个class内容是否正确

对比下内容一样，选取没问题

练习2，代码如下

print('采集superHero.xml中最后一个class的内容')

Selector(text=body).xpath('/html/body/superhero/class[last()]').extract()

执行结果，然后去对比下

练习3，代码如下

print('采集superHero.xml中name属性为en的数据')

Selector(text=body).xpath('//name[@lang="en"]').extract()

执行结果，去对比

练习4，代码如下

print('采集superHero.xml中倒数第二个class的name节点的文本')

Selector(text=body).xpath('/html/body/superhero/class[last()-1]/name/text()').extract()

执行结果，对比

练习5，代码如下

print('以下展示的是嵌套选择器')

sub = Selector(text=body).xpath('/html/body/superhero/class[last()-1]').extract()

sub

Selector(text=sub[0]).xpath('/html/body/class/sex/text()').extract()

Selector(text=sub[0]).xpath('//class/sex/text()').extract()

执行结果对比

注释

sub = Selector(text=body).xpath('/html/body/superhero/class[last()-1]').extract()

注释:采集superHero中倒数第二个class内容，然后赋值给subBody

sub

Selector(text=sub[0]).xpath('/html/body/class/sex/text()').extract()

注释：从根节点进行匹配获取sex里面的文本，注意xpath后面接的是 / 指根节点

Selector(text=sub[0]).xpath('//class/sex/text()').extract()

注释：从当前节点进行匹配获取sex里面的文本，注意xpath后面接的是 //指当前节点

关键字：

上一篇： scrapy框架安装

下一篇： scrapy选择器css



搜索

热门推荐

最新文章

Python搭建一个RAG系统(分片/检索/召回/重排序/生成)
 2224°
Browser-use:智能浏览器自动化(Web-Agent)
 2911°
使用 LangChain 实现本地 Agent
 2433°
使用 LangChain 构建本地 RAG 应用
 2374°
使用LLaMA-Factory微调大模型的function calling能力
 2943°
复现一个简单Agent系统
 2377°
LLaMA Factory-Lora微调实现声控语音多轮问答对话-1
 3181°
LLaMA Factory微调后的模型合并导出和部署-4
 5236°
LLaMA Factory微调模型的各种参数怎么设置-3
 5049°
LLaMA Factory构建高质量数据集-2
 3608°

博主信息

姓名：Run
职业：谜
邮箱：383697894@qq.com
定位：上海 · 松江

扫我打开

友情链接

百度 淘宝 腾讯 慕课网 CSDN 博客园 51cto博客