python-其它有用模块1

发布时间:2017-12-11 22:09:31编辑:Run阅读(3259)

    re模块(正则表达式)

    re模块是文件处理中必不可少的模块,它主要应用于字符串的查找,定位等等,在使用网络爬虫时,即使没有爬虫框架,re模块配合urllib.request模块也可以完成简单的爬虫功能,先来看看正则表达式,python支持的正则表达式元字符和语法

    1 字符

    .  点匹配任意除换行符\n外的字符,abc匹配abc

    \  转义字符,使后一个字符改变原来的意思,a\.bc匹配a.bc

    [...]  字符集(字符类),对应字符集中的任意字符,第一个字符是^则取反,a[bc]d匹配abd或者acd


    2 预定义字符集

    \d  数字[0-9],匹配数字0-9

    \D  非数字[^\d],即匹配非数字

    \s  空白字符[空格\t\r\n\f\v]

    \S  非空白字符[^\s]

    \w  单词字符[a-zA-Z0-9]

    \W  非单词字符[^\w]


    3 数量词

    *  匹配前一个字符0或者无限次,al*b 匹配 ab,alb,allb .....

    +  匹配前一个字符1或者无限次,al+b 匹配 alb,allb .....

    ?  匹配前一个字符0或1次,al?b 匹配 ab,alb

    {m}  匹配前一个字符m次,al{3}b 匹配 alllb

    {m,n}  匹配前一个字符m至n次,al{2,3}b 匹配 allb,alllb


    4 边界匹配

    ^  匹配字符串开头,如^abc 匹配 以abc开头的字符串

    $  匹配字符串结尾,如xyz$ 匹配以xyz结尾的字符串

    \A  仅匹配字符串开头,如\Aabc

    \Z  仅匹配字符串结尾,如xyz\Z


    python的re模块提供了两种不同的原始操作:match和search,match是从字符串的起点开始做匹配,而search是对字符串做任意匹配,最常用的几个re模块方法如下

    re.compile(pattern,flags=0)  将字符串形式的正则表达式编译为Pattern对象

    re.search(string[,pos[,endpos]])  从string的任意位置开始匹配

    re.match(string[,pos[,endpos]])  从string的开头开始匹配

    re.findall(string[,pos[,endpos]])  从string任意位置开始匹配,返回一个列表

    re.finditer(string[,pos[,endpos]])  从string任意位置开始匹配,返回一个迭代器,一般匹配findall就可以了,大数量的匹配还是使用finditer比较好


    简单的测试一下,打开IDLE执行命令

    blob.png



关键字