TextGrocery短文本分类工具
TextGrocery 是一个基于SVM算法的短文本分类工具,内置了结巴分词,让文本分类变得简单。
示例代码:
>>> from tgrocery import Grocery # 新开张一个杂货铺,别忘了取名! >>> grocery = Grocery('sample') # 训练文本可以用列表传入 >>> train_src = [ ('education', '名师指导托福语法技巧:名词的复数形式'), ('education', '中国高考成绩海外认可 是“狼来了”吗?'), ('sports', '图文:法网孟菲尔斯苦战进16强 孟菲尔斯怒吼'), ('sports', '四川丹棱举行全国长距登山挑战赛 近万人参与') ] >>> grocery.train(train_src) # 也可以用文件传入 >>> grocery.train('train_ch.txt') # 保存模型 >>> grocery.save() # 加载模型(名字和保存的一样) >>> new_grocery = Grocery('sample') >>> new_grocery.load() # 预测 >>> new_grocery.predict('考生必读:新托福写作考试评分标准') education # 测试 >>> test_src = [ ('education', '福建春季公务员考试报名18日截止 2月6日考试'), ('sports', '意甲首轮补赛交战记录:米兰客场8战不败国米10年连胜'), ] >>> new_grocery.test(test_src) # 准确率 0.5 # 同样可以用文本传入 >>> new_grocery.test('test_ch.txt') # 自定义分词器 >>> custom_grocery = Grocery('custom', custom_tokenize=list)
评论
石桥镇前赵村
2022年3月,前赵村被评选为2021年商丘市市级基层党建示范村。前赵村:位于石桥镇西北3公里处。前赵村与关庄村、韩庄村、万庄村、郭岔楼村、赵庄村、黄兰芝村、王行村、刘花桥村、任庄村、万集村、金厢寺村
石桥镇前赵村
0
石桥镇王赵村
王赵村是甘肃省陇南市礼县石桥镇下辖的行政村,城乡分类代码为220,为村庄。区划代码为621226102231,居民身份证号码前6位为621226。邮政编码为746000,长途电话区号为0939,车牌号
石桥镇王赵村
0
上石桥镇赵岗村
赵岗村是河南省信阳市商城县上石桥镇下辖的行政村,城乡分类代码为220,为村庄。区划代码为411524101211,居民身份证号码前6位为411524。邮政编码为464000,长途电话区号为0376,
上石桥镇赵岗村
0