jieba分词工具三种分词模式(jieba:一个优秀的中文分词Python库)

前言

jieba是一款优秀的中文分词库,具有高效、准确的特点,广泛应用于自然语言处理、信息检索等领域。在本博客中,我们将详细介绍jieba库的基本使用方法、高级功能以及实际应用案例,帮助读者快速掌握jieba库的使用技巧,提升自己在Python编程和自然语言处理方面的能力。无论你是初学者还是有一定基础的开发者,都能从本博客中获得实用的知识和技巧。让我们一起探索jieba库的魅力吧!

一.安装

pip install jieba

二.基本用法

1.导入库

import jieba

2.分词

jieba.cut(str,use_paddle=True,cut_all=True,HMM=True)

use_paddle:联通大流量卡是否使用paddle模式

cut_all:是否使用全模式

HMM:使用使用HMM模型

>>> s = “今天是星期五下午5点” >>> ret = jieba.cut(s) >>> “/”.join(ret) 今天/是/星期/星期五/五下/下午/5/点

3.全分词jieba.cut(str,cut_all=True)

s = “今天是星期五下午5点” >>> ret = jieba.cut(s,cut_all=True) >>> “/”.join(ret) 今天/是/星期/星期五/五下/下午/5/点 >>>

4.搜索模式jieba.cut_for_search()

s = “今天是星期五下午5点” >>> ret = jieba.c联通大流量卡ut_for_search(s)>>> “/”.join(ret) 今天/是/星期/星期五/下午/5/点

5.添加字典jieba.add_word()

s = “今天是星期五下午5点” >>> jieba.add_word(“5点”) >>> ret = jieba.cut(s) >>> “/”.join(ret) 今天/是/星期五/下午/5点

6.删除字典jieba.del_word()

s = “今天是星期五下午5点” >>> jieba.add_word(“5点”) >>> ret = jieba.cut(s) >>> “/”.join(ret) 今天/是/星期五/下午/5点 >>> jieba.del_word(“5点”联通大流量卡) >>> ret = jieba.cut(s) >>> “/”.join(ret) 今天/是/星期五/下午/5/点 >>>

7.载入字典jieba.load_userdict(file_name)

格式如下

每个词占一行

每一行分三部分词语[词频]、[词性],用空格隔开,顺序不可颠倒

>>> s = “阿奴简历就斯蒂芬数控刀具诶集约化佶唷sdfe时代峰峻诶” >>> ret = jieba.cut(s) >>> “/”.join(ret) 阿奴/简历/就/斯蒂芬/数控/刀具/诶/集约化/佶/唷/sdfe/时代/峰峻/诶 >>> jieba.load_userdict(“D:\code\dict.txt”) >>> ret联通大流量卡 = jieba.cut(s)>>> “/”.join(ret) 阿奴/简历/就斯蒂芬/数控刀具诶/集约化/佶唷sdfe/时代峰峻诶 >>>

dict.txt内容如下

更详细的用法参考github

https://github.com/fxsjy/jieba


友情提醒: 请添加客服微信进行免费领取流量卡!
QQ交流群:226333560 站长微信:qgzmt2

原创文章,作者:sunyaqun,如若转载,请注明出处:https://www.dallk.cn/44614.html

(0)
sunyaqunsunyaqun
上一篇 2024年4月25日
下一篇 2024年4月25日

相关推荐

发表回复

登录后才能评论