基于Python的语料库数据处理(二)
《Python玩转语料库数据》专栏·第2篇
文 | 段洵
1029字 | 5 分钟阅读
【数据科学与人工智能】已开通Python语言社群,学用Python,玩弄数据,求解问题,以创价值。喜乐入群者,请加微信号shushengya360,或扫描文末二维码,添加为好友,同时附上Python-入群。有朋自远方来,不亦乐乎,并诚邀入群,以达相互学习和进步之美好心愿。
一、字符串运算
语料库处理中,Python语言的字符串运算主要是将词语、句子连接起来,或者将词语、句子重复若干次,如:string1+string2(两个字符串相加),string*n(将该字符串重复n次),具体示例如下:
二、字符串与数值的转换
在进行语料库数据处理时,不要将字符串与数值混淆。我们可以使用str()函数将数字转换成字符串,也可以用float()函数或int()函数将字符串转换成数值。具体示例如下:
三、语料库数据处理常用字符串函数
语料库常数据处理常用的字符串函数有:
1.长度和大小相关函数:len(string)——计算字符长度,string.lower()——字符串字母全部小写,string.upper()——字符串字母全部大写,string.capitalize()——字符串第一个单词首字母大写,string.title()——字符串每个单词首字母大写,string.swapcase()——字符串字母大小写互换。具体示例如下:
2.删除空格的函数:string.strip()——删除字符串前后的空格,string.lstrip()——删除字符串前的空格,string.rstrip()——删除字符串后的空格。具体示例如下:
3.对字符串进行相关判断的函数:string.startswith(x)——判断字符串是否以x开头,string.endswith(x)——判断字符串是否以x结尾,string.isalnum()——判断字符串是否全是紫玉和数字,并至少有一个字符,string.isalpha(x)——判断字符串是否全是字母,并至少有一个字符,string.isdigit(x)——判断字符串是否全是数字,并至少有一个字符,string.islower(x)——判断字符串的字母是否全是小写,string.isupper(x)——判断字符串的字母是否全是大写,string.istitle(x)——判断字符串的每个单词首字母是否大写,string.isspace(x)——判断字符串是否全是空白字符,并至少有一个字符。具体示例如下:
四、结语
这是基于Python的语料库数据处理专栏的第二期,以后也会定期更新。有在研究语料库的朋友可以一起来学习,使用Python进行语料库数据处理会更方便、更快捷。
推荐阅读:基于Python的语料库数据处理(一)
公众号推荐
数据思践
数据思践公众号记录和分享数据人思考和践行的内容与故事。
Python语言群
诚邀您加入
请扫下方二维码加我为好友,备注Python-入群。有朋自远方来,不亦乐乎,并诚邀入群,以达相互学习和进步之美好心愿。。