前言
jieba是一款优秀的中文分词库,具有高效、准确的特点,广泛应用于自然语言处理、信息检索等领域。在本博客中,我们将详细介绍jieba库的基本使用方法、高级功能以及实际应用案例,帮助读者快速掌握jieba库的使用技巧,提升自己在Python编程和自然语言处理方面的能力。无论你是初学者还是有一定基础的开发者,都能从本博客中获得实用的知识和技巧。让我们一起探索jieba库的魅力吧!
一.安装
pip install jieba二.基本用法
1.导入库
import jieba2.分词
jieba.cut(str,use_paddle=True,cut_all=True,HMM=True)
use_paddle:联通大流量卡是否使用paddle模式
cut_all:是否使用全模式
HMM:使用使用HMM模型
>>> s = “今天是星期五下午5点” >>> ret = jieba.cut(s) >>> “/”.join(ret) 今天/是/星期/星期五/五下/下午/5/点3.全分词jieba.cut(str,cut_all=True)
s = “今天是星期五下午5点” >>> ret = jieba.cut(s,cut_all=True) >>> “/”.join(ret) 今天/是/星期/星期五/五下/下午/5/点 >>>4.搜索模式jieba.cut_for_search()
s = “今天是星期五下午5点” >>> ret = jieba.c联通大流量卡ut_for_search(s)>>> “/”.join(ret) 今天/是/星期/星期五/下午/5/点5.添加字典jieba.add_word()
s = “今天是星期五下午5点” >>> jieba.add_word(“5点”) >>> ret = jieba.cut(s) >>> “/”.join(ret) 今天/是/星期五/下午/5点6.删除字典jieba.del_word()
s = “今天是星期五下午5点” >>> jieba.add_word(“5点”) >>> ret = jieba.cut(s) >>> “/”.join(ret) 今天/是/星期五/下午/5点 >>> jieba.del_word(“5点”联通大流量卡) >>> ret = jieba.cut(s) >>> “/”.join(ret) 今天/是/星期五/下午/5/点 >>>7.载入字典jieba.load_userdict(file_name)
格式如下
每个词占一行
每一行分三部分:词语、[词频]、[词性],用空格隔开,顺序不可颠倒
>>> s = “阿奴简历就斯蒂芬数控刀具诶集约化佶唷sdfe时代峰峻诶” >>> ret = jieba.cut(s) >>> “/”.join(ret) 阿奴/简历/就/斯蒂芬/数控/刀具/诶/集约化/佶/唷/sdfe/时代/峰峻/诶 >>> jieba.load_userdict(“D:\code\dict.txt”) >>> ret联通大流量卡 = jieba.cut(s)>>> “/”.join(ret) 阿奴/简历/就斯蒂芬/数控刀具诶/集约化/佶唷sdfe/时代峰峻诶 >>>dict.txt内容如下
更详细的用法参考github
https://github.com/fxsjy/jieba友情提醒: 请添加客服微信进行免费领取流量卡!
QQ交流群:226333560 站长微信:qgzmt2
原创文章,作者:sunyaqun,如若转载,请注明出处:https://www.dallk.cn/44614.html