jparser网页转码 python 库

联合创作 · 2023-09-21 23:20

jparser是一个python库，用于网页转码，也就是从html源码中抽取正文的结构化数据：文本段落和图片。目前主要针对新闻资讯类页面进行了优化。

用法：

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

示例：

http://jparser.duapp.com/

依赖：lxml

浏览 31

点赞

收藏

分享

举报

评论

图片

表情

jparser网页转码 python 库

jparser是一个python库，用于网页转码，也就是从html源码中抽取正文的结构化数据：文本段落和图片。目前主要针对新闻资讯类页面进行了优化。用法：import urllib2from jpar

EasyAACEncoderAAC 转码工具库

EasyAACEncoder 是一个简单、高效、稳定的开源音频编码库，支持将各种音频数据(G.711

EasyAACEncoderAAC 转码工具库

EasyAACEncoder是一个简单、高效、稳定的开源音频编码库，支持将各种音频数据(G.711A/PCMA、G.711U/PCMU、G726、PCM)转码成AAC(withadts)格式，其中aa

IMGKit将网页转换成图片的 Python 库

IMGKit 是一个 Python 2/3 的库，使用它我们可以将网页转换成图片，输入可以是网址，H

IMGKit将网页转换成图片的 Python 库

IMGKit是一个Python2/3的库，使用它我们可以将网页转换成图片，输入可以是网址，HTML文件或者字符串。安装安装python-pdfkit：$ pip install pdfkit安装wkh

MochaUI网页UI库

MochaUI是一个用来开发网页上的界面库，基于Mootools框架。演示地址：http://mochaui.com/demo/

ChaosCodebox网页高亮库

什么是ChaosCodebox?ChaosCodebox是一个网页的代码高亮库。它是使用google-code-prettify作为高亮引擎的。ChaosCodebox是一个ChaosBlog的一个子

MochaUI网页UI库

MochaUI 是一个用来开发网页上的界面库，基于 Mootools 框架。演示地址：http://

ChaosCodebox网页高亮库

什么是ChaosCodebox?ChaosCodebox是一个网页的代码高亮库。它是使用google

Satori网页转 SVG 库

Satori是由Vercel团队开源的使用HTML和CSS代码生成SVG图像的库，能够将HTML和CSS转换为SVG、PNG、PDF的在线工具，可以用来生成OpenGraph图片。Satori支持JS

点赞

收藏

分享

举报