jparser网页转码 python 库
jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。
用法:
import urllib2 from jparser import PageModel html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030') pm = PageModel(html) result = pm.extract() print "==title==" print result['title'] print "==content==" for x in result['content']: if x['type'] == 'text': print x['data'] if x['type'] == 'image': print "[IMAGE]", x['data']['src']
示例:
依赖:lxml
评论
EasyAACEncoderAAC 转码工具库
EasyAACEncoder是一个简单、高效、稳定的开源音频编码库,支持将各种音频数据(G.711A/PCMA、G.711U/PCMU、G726、PCM)转码成AAC(withadts)格式,其中aa
EasyAACEncoderAAC 转码工具库
0
IMGKit将网页转换成图片的 Python 库
IMGKit是一个Python2/3的库,使用它我们可以将网页转换成图片,输入可以是网址,HTML文件或者字符串。安装安装python-pdfkit:$ pip install pdfkit安装wkh
IMGKit将网页转换成图片的 Python 库
0
ChaosCodebox网页高亮库
什么是ChaosCodebox?ChaosCodebox是一个网页的代码高亮库。它是使用google-code-prettify作为高亮引擎的。ChaosCodebox是一个ChaosBlog的一个子
ChaosCodebox网页高亮库
0