Python 超级强大的模式匹配工具—Pampy
AirPython
共 2723字,需浏览 6分钟
·
2021-03-11 22:28
点击上方“AirPython”,选择“加为星标”
大家好,我是安果!
在自然语言处理界,「模式匹配」可以说是最常用的技术;甚至可以说,将 NLP 技术作为真实生产力的项目都少不了模式匹配
什么是模式匹配呢?
在计算机科学中,往往是检查给定的序列或字符串中是否有符合某种模式的片段,比如说:“啊,你的 AK-47 打得真准”,如果我们将 “啊,你的_打得真准 ” 作为一种模式,则会将 AK-47 匹配出来
实现模式匹配往往都是用正则表达式,但是如果你想识别特别复杂的模式,编写正则表达式就会变得非常非常麻烦
而 Pampy 这个项目能解决你不少的烦恼
项目地址:
https://github.com/santinic/pampy
下面是一个使用例子:
1. 安装
赶紧让我们来试一下,安装 Pampy 前,你要确保 Python 和 pip 已经成功安装在电脑上噢
使用命令安装 Pampy
$ pip install pampy
看到 Successfully installed pampy-0.3.0 则说明安装成功
2. 使用
特性1:HEAD 和 TAIL
HEAD 和 TAIL 能代表某个模式的前面部分或后面部分。
比如:将特定模式后的元素都变成元组:
from pampy import match, HEAD, TAIL, _
x = [-1, -2, -3, 0, 1, 2, 3]
print(match(x, [-1, TAIL], lambda t: [-1, tuple(t)]))
# => [-1, (-2, -3, 0, 1, 2, 3)]
将特定模式前的元素设为集合,后面的元素设为元组:
from pampy import match, HEAD, TAIL, _
x = [-1, -2, -3, 0, 1, 2, 3]
print(match(x, [HEAD, _, _, 0, TAIL], lambda h, a, b, t: (set([h, a, b]), tuple(t))))
# => ({-3, -1, -2}, (1, 2, 3))
特性2:甚至能匹配字典中的键
在你不知道哪个键下有某个值的时候,这招非常好用:
from pampy import match, HEAD, TAIL, _
my_dict = {
'global_setting': [1, 3, 3],
'user_setting': {
'face': ['beautiful', 'ugly'],
'mind': ['smart', 'stupid']
}
}
result = match(my_dict, { _: {'face': _}}, lambda key, son_value: (key, son_value))
print(result)
# => ('user_setting', ['beautiful', 'ugly'])
特性3: 搭配正则
不仅如此,它还能搭配正则一起使用哦:
import re
from pampy import match, HEAD, TAIL, _
def what_is(pet):
return match(
pet, re.compile('(\w+),(\w)\w+鳕鱼$'), lambda mygod, you: you + "像鳕鱼"
)
print(what_is('我的天,你长得真像鳕鱼'))
# => '你像鳕鱼'
好了,以上就是今天的文章。如果对你有帮助,麻烦在下面点一个赞/在看,有任何问题都可以在下方留言,我会耐心解答的!
评论
超级强大的文字识别工具,附资源
前几天一个朋友让我帮忙注册个公众号并且认证一下,这么简单的事情,我就满口答应下来了。
当我填写认证资料的时候,一个尴尬的事情出现了,有一项内容是填写营业范围,见过营业执照的朋友都知道,营业范围这一项贼长。
一个字一个字敲吧?像我这么懒的人,不存在的,那就找工具吧
百度上找了一堆都不怎么好用,要不就是收费,要不就是乱码,要不就是排版有问题。
最后就发现这一款强大的OCR文字识别工具。
别看它只有1M多,但是它集合百度、腾讯、有道、搜狗,调用了各大网站的ocr接口,免费不限次数!
它有多强大呢?我们来测试一遍:
1、识别图片的文字转为文本
比如我想把下面图片的文
腻害的蓝胖子
0