jieba分词工具三种分词模式（jieba：一个优秀的中文分词Python库）

sunyaqun • 2024年4月25日下午8:25 • 流量卡资讯

前言

jieba是一款优秀的中文分词库，具有高效、准确的特点，广泛应用于自然语言处理、信息检索等领域。在本博客中，我们将详细介绍jieba库的基本使用方法、高级功能以及实际应用案例，帮助读者快速掌握jieba库的使用技巧，提升自己在Python编程和自然语言处理方面的能力。无论你是初学者还是有一定基础的开发者，都能从本博客中获得实用的知识和技巧。让我们一起探索jieba库的魅力吧！

一.安装

pip install jieba

二.基本用法

1.导入库

import jieba

2.分词

jieba.cut(str,use_paddle=True,cut_all=True,HMM=True)

use_paddle：联通大流量卡是否使用paddle模式

cut_all：是否使用全模式

HMM：使用使用HMM模型

>>> s = “今天是星期五下午5点” >>> ret = jieba.cut(s) >>> “/”.join(ret) 今天/是/星期/星期五/五下/下午/5/点

3.全分词jieba.cut(str,cut_all=True)

s = “今天是星期五下午5点” >>> ret = jieba.cut(s,cut_all=True) >>> “/”.join(ret) 今天/是/星期/星期五/五下/下午/5/点 >>>

4.搜索模式jieba.cut_for_search()

s = “今天是星期五下午5点” >>> ret = jieba.c联通大流量卡ut_for_search(s)>>> “/”.join(ret) 今天/是/星期/星期五/下午/5/点

5.添加字典jieba.add_word()

s = “今天是星期五下午5点” >>> jieba.add_word(“5点”) >>> ret = jieba.cut(s) >>> “/”.join(ret) 今天/是/星期五/下午/5点

6.删除字典jieba.del_word()

s = “今天是星期五下午5点” >>> jieba.add_word(“5点”) >>> ret = jieba.cut(s) >>> “/”.join(ret) 今天/是/星期五/下午/5点 >>> jieba.del_word(“5点”联通大流量卡) >>> ret = jieba.cut(s) >>> “/”.join(ret) 今天/是/星期五/下午/5/点 >>>

7.载入字典jieba.load_userdict(file_name)

格式如下

每个词占一行

每一行分三部分：词语、[词频]、[词性]，用空格隔开，顺序不可颠倒

>>> s = “阿奴简历就斯蒂芬数控刀具诶集约化佶唷sdfe时代峰峻诶” >>> ret = jieba.cut(s) >>> “/”.join(ret) 阿奴/简历/就/斯蒂芬/数控/刀具/诶/集约化/佶/唷/sdfe/时代/峰峻/诶 >>> jieba.load_userdict(“D:\code\dict.txt”) >>> ret联通大流量卡 = jieba.cut(s)>>> “/”.join(ret) 阿奴/简历/就斯蒂芬/数控刀具诶/集约化/佶唷sdfe/时代峰峻诶 >>>

dict.txt内容如下

更详细的用法参考github

https://github.com/fxsjy/jieba

友情提醒：请添加客服微信进行免费领取流量卡！
QQ交流群：226333560 站长微信：qgzmt2

原创文章，作者：sunyaqun，如若转载，请注明出处：https://www.dallk.cn/44614.html

jieba分词工具三种分词模式（jieba：一个优秀的中文分词Python库）

相关推荐

发表回复