Requests-HTMLPython 的 HTML 解析库
Requests-HTML 对 Requests 进行了封装,添加了解析 HTML 的接口,是一个 Python 的 HTML 解析库。
我们知道 requests 只负责网络请求,不会对响应结果进行解析,因此可以把 requests-html 理解为可以解析 HTML 文档的 requsts 库。requests-html 的代码量非常少,都是基于现有的框架进行二次封装,开发者使用时可更方便调用。它依赖于 PyQuery、requests、lxml 等库。
requests-html 具有以下特性
完全支持 JavaScript
CSS 选择器
XPath 选择器
模拟用户代理(如同真正的网络浏览器)
自动跟踪重定向
连接池和 cookie 持久化
安装
pip install requests-html
使用方法
>>> from requests_html import session # 返回一个Response对象 >>> r = session.get('https://python.org/') # 获取所有链接 >>> r.html.links {'/users/membership/', '/about/gettingstarted/'} # 使用css选择器的方式获取某个元素 >>> about = r.html.find('#about')[0] >>> print(about.text) About Applications Quotes Getting Started Help Python Brochure
还有一个非常吸引人的特点是,它能将 HTML 转换为 Markdown 文本
# 将html转换为Markdown文本 >>> print(about.markdown) * [About](/about/) * [Applications](/about/apps/) * [Quotes](/about/quotes/) * [Getting Started](/about/gettingstarted/) * [Help](/about/help/) * [Python Brochure](http://brochure.getpython.info/)
评论
OnoXML/HTML 解析库
Ono(斧)是iOS&MacOSX处理 XML&HTML的一种明智的方法(解析库)。XML在Cocoa的支持并不好,NSXMLParser强制要求繁琐的委托模式,这是非常不方便实现的。
OnoXML/HTML 解析库
0
NokogiriRuby 的 HTML/XML 解析库
Aaron Patterson和Mike Dalessio开发了一个新的Ruby解析HTML/XML
NokogiriRuby 的 HTML/XML 解析库
0
PyQueryPython 的 HTML/XML 解析库
PyQuery 让你使用 jQuery 的风格来遍历 XML 文档,它使用了 lxml 来处理 XM
PyQueryPython 的 HTML/XML 解析库
0
goqueryGo 的 HTML/XML 解析库
goquery是一个使用go语言写成的HTML解析库,可以让你像jQuery那样的方式来操作DOM文档。下面是示例:func ExampleScrape_MetalReview() { // Loa
goqueryGo 的 HTML/XML 解析库
0