英文短文自动分词写入文本文件制作单词本适合导入“知米背单词”

等风来也等你

共 1447字,需浏览 3分钟

 · 2024-03-20

787fda4e28554353e64e584abf19c67f.webp


实例描述

我们在刷英语单词的时候,时常会使用一些 App ,如“百词斩”、“开心词场”、“新东方”等,但是大多没有自定义单词本,无意间发现“知米背单词”可以自定义单词本。那么对于大段文章中的单词(如图 1 所示),我们将通过 Python 实现自动分词并去掉特殊符号、空格、空行、数字和重复单词等不符合规范的内容,然后形成单词本格式,如图 2 所示。

5eeea95c69b8f534932bf42d201e11f2.webp

制作成功的单词本就可以导入到“知米背单词” App 中了,效果如图 3 所示,之后就可以轻松背诵自己定制的单词了。

d8e0227e9198f1d5a1e90f7ce0a6c61f.webp

3   知米背单词

    技术要点

本实例主要使用了字符串处理函数和 string 字符串模块。首先对字符串进行分割 然后去重、去特殊符号、去空格和数字等。

  代码实现

实现英文短文自动分词写入文本文件文件 具体代码实现如下

1 导入模块 代码如下。

import  string

2 打开英文短文进行字符串去重 去掉特殊符 号、数字、空格空行等, 代码如下。

f =  open ( './data/split.txt' )

s=f.read()

str1=s.title()

print (str1)

print ( "" .join([s  for  in  str1.splitlines( True if  s.strip()]))

list1 = str1.split()  采用默认分隔符进行分割

# 字符串列表去重

l1= list ( set (list1))

l1.sort( key =list1.index)

for  in  l1:

   # 去掉特殊符号

   i1=i.translate( str .maketrans( '' '' , string.punctuation))

  i2=i1.strip( \t\n\r' ) 去除字符串中头尾的空格

  #print(i1.strip(' \t\n\r')) #  去除字符串中头尾的空格

   if not  i2.isnumeric():    # 滤除数字

         i3=i2

        f1 =  open ( './data/ 单词本 .txt' , 'a' )

        f1.write( '\n' +i3)




7a40c5773747b05f19f8af52cf70bec2.webp

浏览 8
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报