beautiful soup爬虫初识

发布时间：2018-06-22 17:41:55编辑：Run阅读（6302）

Beautiful Soup的安装,简称bs4

pip3 install bs4

bs4解析器选择

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, "html.parser")	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, "lxml")	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, ["lxml-xml"]) BeautifulSoup(markup, "xml")	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, "html5lib")	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部扩展

官方推荐使用lxml作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3中3.2.2之前的版本,必须安装lxml或html5lib, 因为那些Python版本的标准库中内置的HTML解析方法不够稳定

lxml解析器安装

pip3 install lxml

使用bs4过滤器

自建示例文件scenery.html文件的内容如下:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>武汉旅游景点</title>
    <meta name="description" content="武汉旅游景点 精简版" />
    <meta name="author" content="hstking">
</head>
<body>
    <div id="content">
        <div class="title">
            <h3>武汉景点</h3>
        </div>
        <ul class="table">
            <li>景点<a>门票价格</a></li>
        </ul>
        <ul class="content">
            <li nu="1">东湖 <a class="price">60</a></li>
            <li nu="2">磨山 <a class="price">60</a></li>
            <li nu="3">欢乐谷 <a class="price">108</a></li>
            <li nu="4">武昌极地海洋世界 <a class="price">150</a></li>
            <li nu="5">玛雅水上乐园 <a class="price">150</a></li>
        </ul>
    </div>

</body>
</html>

使用lxml解析器，打印scenery.html内容

from bs4 import BeautifulSoup

# 使用lxml解析器
soup = BeautifulSoup(open('scenery.html', encoding='utf8'), 'lxml')
# prettify按标准的缩进格式的结构输出
print(soup.prettify())

执行结果: 按照标准的缩进格式的结构输出

bs4解析器lxml练习:

#!/usr/bin/env python
# coding: utf-8
from bs4 import BeautifulSoup

# 使用lxml解析器
soup = BeautifulSoup(open('scenery.html', encoding='utf8'), 'lxml')
# prettify按标准的缩进格式的结构输出
print(soup.prettify())

# 获取第一次出现的标签名为ul的标签内容
print(soup.ul)
print('\n')

# 使用bs4过滤器soup.find()的方法获取第一次出现的标签内容
print(soup.find('ul'))
print('\n')

# 使用soup.find_all方法获取所有符合条件的标签列表，然后从列表中读取就行了
print(soup.find_all('ul'))  # 获取所有ul中所有内容
print('\n')

print(soup.find_all('ul')[0])  # 获取第一个ul中的所有内容
print('\n')

print(soup.find_all('ul')[1])  # 获取第二个ul中的所有内容
print('\n')

# 可以用soup.find(TagName, attrs={attrName:attrValue})的方法获取Tag的位置
# 获取li标签nu='3'的内容,适用标签名相同，属性不同的标签
print(soup.find('li', attrs={'nu': '3'}))
print('\n')

# 标签名相同,属性相同,连属性值都相同的标签
# 可以用soup.find_all(TagName,attr={'attName':'attValue'})将符合条件的内容全部放到列表里面
# 找a标签，class='price'的第一个内容
print(soup.find_all('a', attrs={'class': 'price'})[0])
print('\n')

# 获取li标签，nu='2'的内容
Tags = soup.find('li', attrs={'nu': '2'})
print(Tags)
print(Tags.a)  # 获取nu='2'里面的a标签内容
print(Tags.find('a'))  # 获取nu='2'里面的a标签内容
print('\n')

# 获取li标签，nu='4'的内容
Tag = soup.find('li', attrs={'nu': '4'})
print(Tag)

# 获取li标签,nu='4'中nu的值
print(Tag.get('nu'))

# 获取li标签,nu='4'中的文本内容
ss = Tag.get_text()
print(ss)

# 以空格切割上面文本内容拿到第一个值
print(Tag.get_text().split(' ')[0])

# 获取li标签下a标签的文本内容
print(Tag.a.get_text())

关键字：

上一篇：没有了

下一篇： bs4爬虫实战一:获取百度贴吧内容



搜索

热门推荐

最新文章

LangChain 1.0-Agent中间件-实现闭环(批准-编辑-拒绝动作)
 159°
LangChain 1.0-Agent中间件-汇总消息
 155°
LangChain 1.0-Agent中间件-删除消息
 165°
LangChain 1.0-Agent中间件-消息压缩
 159°
LangChain 1.0-Agent中间件-多模型动态选择
 211°
LangChain1.0-Agent-部署/上线(开发人员必备)
 382°
LangChain1.0-Agent-Spider实战(爬虫函数替代API接口)
 410°
LangChain1.0-Agent(进阶)本地模型+Playwright实现网页自动化操作
 410°
LangChain1.0-Agent记忆管理
 390°
LangChain1.0-Agent接入自定义工具与React循环
 426°

博主信息

姓名：Run
职业：谜
邮箱：383697894@qq.com
定位：上海 · 松江

扫我打开

友情链接

百度 淘宝 腾讯 慕课网 CSDN 博客园 51cto博客