XPath与lxml库

xiaoxiao2023-11-19 170

XPath及开发工具 XPath，全称XMLPath Language ，即 XML路径语言，它是一门在XML 文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样适用于HTML 文档的搜索。所以在做爬虫时，可以使用 XPath 来做相应的信息抽取。 XPath开发工具：

Chrome插件XPath Helper。Firefox插件Try XPath。 XPath语法选取节点： XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。表达式描述示例结果 nodename 选取此节点的所有子节点 bookstore 选取bookstore下所有的子节点 / 如果是在最前面，代表从根节点选取。否则选择某节点下的某个节点 /bookstore 选取根元素下所有的bookstore节点 // 从全局节点中选择节点，随便在哪个位置 //book 从全局节点中找到所有的book节点 @ 选取某个节点的属性 //book[@price] 选择所有拥有price属性的book节点 . 当前节点 ./a 选取当前节点下的a标签

谓语：谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中。在下面的表格中，一下是带有谓语的一些路径表达式，以及表达式的结果：路径表达式描述 /bookstore/book[1] 选取bookstore下的第一个子元素 /bookstore/book[last()] 选取bookstore下的倒数第二个book元素。 bookstore/book[position()❤️] 选取bookstore下前面两个子元素。 //book[@price] 选取拥有price属性的book元素 //book[@price=10] 选取所有属性price等于10的book元素

通配符： *表示通配符。通配符描述示例结果

匹配任意节点 /bookstore/* 选取bookstore下的所有子元素。 @* 匹配节点中的任何属性 //book[@*] 选取所有带有属性的book元素。

选取多个路径：通过在路径表达式中使用“|”运算符，可以选取若干个路径。示例如下： //bookstore/book | //book/title lxml库 lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。基本使用：

可以利用他来解析HTML代码，并且在解析HTML代码的时候，如果HTML代码不规范，他会自动的进行补全。除了直接使用字符串进行解析，lxml还支持从文件中读取内容。使用lxml解析HTML代码解析html字符串：使用lxml.etree.HTML进行解析。示例代码如下：htmlElement = etree.HTML(text) print(etree.tostring(htmlElement,encoding='utf-8').decode("utf-8")) 解析html文件：使用lxml.etree.parse进行解析。示例代码如下：htmlElement = etree.parse("tencent.html") print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8')) 这个函数默认使用的是XML解析器，所以如果碰到一些不规范的HTML代码的时候就会解析错误，这时候就要自己创建HTML解析器。parser = etree.HTMLParser(encoding='utf-8') htmlElement = etree.parse("lagou.html",parser=parser) print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

在lxml中使用XPath语法

获取所有li标签： from lxml import etree html = etree.parse(‘hello.html’) print type(html) # 显示etree.parse() 返回类型 result = html.xpath(’//li’) print(result) # 打印标签的元素集合获取所有li元素下的所有class属性的值： from lxml import etree html = etree.parse(‘hello.html’) result = html.xpath(’//li/@class’) print(result)获取li标签下href为www.baidu.com的a标签： from lxml import etree html = etree.parse(‘hello.html’) result = html.xpath(’//li/a[@href=“www.baidu.com”]’) print(result)获取li标签下所有span标签： from lxml import etree html = etree.parse(‘hello.html’) #result = html.xpath(’//li/span’) #注意这么写是不对的： #因为 / 是用来获取子元素的，而并不是的子元素，所以，要用双斜杠 result = html.xpath(’//li//span’) print(result)获取li标签下的a标签里的所有class： from lxml import etree html = etree.parse(‘hello.html’) result = html.xpath(’//li/a//@class’) print(result)获取最后一个li的a的href属性对应的值： from lxml import etree html = etree.parse(‘hello.html’) result = html.xpath(’//li[last()]/a/@href’)

谓语 [last()] 可以找到最后一个元素

print(result) 7. 获取倒数第二个li元素的内容： from lxml import etree html = etree.parse(‘hello.html’) result = html.xpath(’//li[last()-1]/a’)

text 方法可以获取元素内容

print(result[0].text) 8. 获取倒数第二个li元素的内容的第二种方式： from lxml import etree html = etree.parse(‘hello.html’) result = html.xpath(’//li[last()-1]/a/text()’) print(result) lxml结合xpath注意事项

使用xpath语法。应该使用Element.xpath方法。来执行xpath的选择。示例代码如下： python trs = html.xpath("//tr[position()>1]") xpath函数返回来的永远是一个列表。获取某个标签的属性： python href = html.xpath("//a/@href") # 获取a标签的href属性对应的值获取文本，是通过xpath中的text()函数。示例代码如下： python address = tr.xpath("./td[4]/text()")[0]在某个标签下，再执行xpath函数，获取这个标签下的子孙元素，那么应该在斜杠之前加一个点，代表是在当前元素下获取。示例代码如下： python address = tr.xpath("./td[4]/text()")[0]

最新回复(0)