推荐一个关键词提取工具yake

共 2772字,需浏览 6分钟

 ·

2021-02-02 07:22

github地址:https://github.com/LIAAD/yake


随着信息的复杂性和规模的增长,从文本中提取关键字已成为个人和组织的挑战。自动化此任务以便可以及时,适当地处理文本的需求导致了自动关键字提取工具的出现。尽管取得了进步,但仍然明显缺乏使用多语言在线工具从单个文档中自动提取关键字的功能。呀!是用于多语言关键字提取的一种新颖的基于功能的系统,该系统支持不同大小,域或语言的文本。与其他方法不同,Yake!既不依赖于字典,也不依赖词库,也不接受任何语料库的培训。相反,它遵循一种无监督的方法,该方法建立在从文本中提取的特征的基础上,因此,它适用于以不同语言编写的文档,而无需进一步的知识。这对于大量任务和过多情况下的训练语料库访问受到限制或限制可能是有益的


yoke是一种轻量级无监督自动关键字提取方法,它基于从单个文档中提取的文本统计特征来选择文本中最重要的关键字。我们的系统不需要针对特定的文档集进行培训,也不必依赖于字典,外部语料库,文本大小,语言或领域。为了展示我们建议的优点和重要性,我们将其与十种最新的无监督方法(TF.IDF,KP-Miner,RAKE,TextRank,SingleRank,ExpandRank,TopicRank,TopicalalPageRank,PositionRank和MultipartiteRank)进行比较,以及一种监督方法(KEA)。在20个数据集之上进行的实验结果表明,在许多不同大小的集合下,yoke明显优于其他方法


input:

import yake

text = '''

"Conta-me Histórias." Xutos inspiram projeto premiado. A plataforma "Conta-me Histórias" foi distinguida com o Prémio Arquivo.pt, atribuído a trabalhos inovadores de investigação ou aplicação de recursos preservados da Web, através dos serviços de pesquisa e acesso disponibilizados publicamente pelo Arquivo.pt . Nesta plataforma em desenvolvimento, o utilizador pode pesquisar sobre qualquer tema e ainda executar alguns exemplos predefinidos. Como forma de garantir a pluralidade e diversidade de fontes de informação, esta são utilizadas 24 fontes de notícias eletrónicas, incluindo a TSF. Uma versão experimental (beta) do "Conta-me Histórias" está disponível aqui.
A plataforma foi desenvolvida por Ricardo Campos investigador do LIAAD do INESC TEC e docente do Instituto Politécnico de Tomar, Arian Pasquali e Vitor Mangaravite, também investigadores do LIAAD do INESC TEC, Alípio Jorge, coordenador do LIAAD do INESC TEC e docente na Faculdade de Ciências da Universidade do Porto, e Adam Jatwot docente da Universidade de Kyoto.
'''

custom_kw_extractor = yake.KeywordExtractor(lan="pt")
keywords = custom_kw_extractor.extract_keywords(text)

for kw in keywords:

print(kw)


output:

('conta-me histórias', 0.006225012963810038)
('liaad do inesc', 0.01899063587015275)
('inesc tec', 0.01995432290332246)
('conta-me', 0.04513273690417472)
('histórias', 0.04513273690417472)
('prémio arquivo.pt', 0.05749361520927859)
('liaad', 0.07738867367929901)
('inesc', 0.07738867367929901)
('tec', 0.08109398065524037)
('xutos inspiram projeto', 0.08720742489353424)
('inspiram projeto premiado', 0.08720742489353424)
('adam jatwot docente', 0.09407053486771558)
('arquivo.pt', 0.10261392141666957)
('alípio jorge', 0.12190479662535166)
('ciências da universidade', 0.12368384021490342)
('ricardo campos investigador', 0.12789997272332762)
('politécnico de tomar', 0.13323587141127738)
('arian pasquali', 0.13323587141127738)
('vitor mangaravite', 0.13323587141127738)
('preservados da web', 0.13596322680882506)



浏览 106
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报