Loading...

python相关的学习知识点总结, python学习知识点经验记录,python相关的学习知识点笔记

当前位置:首页Python

python结巴分词的封装类

发布时间:2024-08-11 02:21
python结巴分词的封装类

python结巴分词的封装类, 结巴分词在python中的应用,可以找出一篇文章中的关键词,后面可以进行文章的信息总结使用。结巴分词还可以帮助我们对中文领域的深入的研究,为开发者提供了便利

'''
Filename         :JiebafenciHelper
Description      :结巴分词帮助类
Time             :2021-12-23 11:24:36
Author           :www.hao366.net
Version          :1.0
'''

import jieba
import jieba.analyse
import time
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer
import re

import os
import os.path
currentdir =os.path.join(os.path.dirname(os.path.abspath(__file__)))
class JieBafenci(object):
    # Description:提取高频词,用于搜集关键字, topk 是提取几个
    def GetGaoPinCi(self, content,topk):
        # jieba.load_userdict(os.path.join(currentdir,'jiebaciku.txt'))
        content = re.sub('</?.*?>',',',content)
        content=content[0:3000]
        seg = jieba.cut(content, cut_all=False)
        output = ' '.join(seg)
        """
        几个参数解释:
        * text : 待提取的字符串类型文本
        * topK : 返回TF-IDF权重最大的关键词的个数,默认为20个
        * withWeight : 是否返回关键词的权重值,默认为False
        * allowPOS : 包含指定词性的词,默认为空
        """
        try:
            keywords = jieba.analyse.extract_tags(
            output, topK=topk, withWeight=True, allowPOS=())
        except:
            pass
        else:
            return keywords
    #Description:提取摘要, text 从text中提取文本,num 提取几段,每段大概100左右
    def GetDescription(self,text,num):
        text = re.sub('</?.*?>',',',text)
        # 如果文字太长时,截取
        text=text[0:3000]
        # 读取文本文件并创建解析器
        parser = PlaintextParser.from_string(text, Tokenizer("chinese"))
        # 创建摘要生成器
        summarizer = LsaSummarizer()
        # 提取3句摘要
        summary = summarizer(parser.document, num)
        # 打印摘要
        result=''
        for sentence in summary:
            result+=str(sentence)+','
        result=result.strip(',')
        return result


if __name__ == "__main__":
    jb = JieBafenci()
    fc =    '''
            京东商城有假货吗?如辨别是真货还是假货?
            '''
    result = jb.GetGaoPinCi(fc,2)
    result2=jb.GetDescription(fc,3)


宝塔中正在执行的计划任务如何结束 宝塔计划任务如何停止

宝塔中正在执行的计划任务如何结束 宝塔计划任务如何停止, 宝塔服务器管理后台中的计划任务用着非常方便,但是只有执行的按钮,没有停止的按钮,当

先暂时保存已有的内容正则替换后再还原回来

先暂时保存已有的内容正则替换后再还原回来, 正则查找字符串中已有的图片, 还原原来的图片, 从而达到在处理一段字符串时,保护要保护的对象不受

生成不重复的关键词

读取词入库,先查询是否存在此关键词,如果存在,则过,不存在,则再检查其拼音是否存在相同的,如果存在,则更改拼音后再入库, 生成不重复的关键词

python中的全局变量 python中函数内部全局变量赋值失效的问题

python中,在一个函数内向全局变量赋值失效的问题,此时我们打印出来的 accesstoken是 空的字符串, 而这种写法在c#里是可以的

python requests以json传参的形式请求数据实例

python requests以json传参的形式请求数据实例, python - requests请求数据,调用api, post方式且传

centos7上如何使用脚本关闭firefox进程

centos7上如何使用脚本关闭firefox进程, 在CentOS 7上,你可以使用ps命令结合grep来查找Firefox进程,然后使用

shell脚本中如何使用curl命令下载文件

这个命令是使用 `curl` 工具来下载一个文件的命令行示例。`curl` 是一个功能强大的命令行工具,用于传输数据,支持多种协议,包括 H

如何使用python socket向服务器传送文件

在Python中,您可以使用socket库来发送文件。以下是一个简单的例子,展示了如何使用TCP socket发送文件给服务器, 本例是两

python定期清理日志文件 防止日志文件无限制的增长

python定期清理日志文件 防止日志文件无限制的增长, python日志文件如果不定期清理 , 会无限制增长,从而占用服务器的磁盘空间,上

python中使用flask接收对方get请求过来的参数 python开发微信公众号接口来自微信服务器的请求

开发者通过检验signature对请求进行校验(下面有校验方式 使用python编写)。若确认此次GET请求来自微信服务器,请原样返回ech

python爬虫数据解析xpath运用

使用>*只会获取标签为 中第一层的元素,但如果第一层中包含下层元素,也会附带获取,但是如果你不写 > 号,只写了 *号,则列表中会把所有的元

提供免费的服务器维护、网站维护、宝塔面板的安装及运行。

网站编写代码分享

网站收录效果不好,自然会影响排名,网站优化首先第一步是要搞好网站收录

网络营销