学习笔记——zhon库的简介、安装、使用方法之详细攻略

科技前沿 • 2025-02-11 22:37 • 阅读 55

大家好，我是讯享网，很高兴认识大家。

zhon库的简介

包括常用常量：

中日韩文字和部首
中文标点符号
汉语句子规则表达模式
拼音元音、辅音、小写、大写和标点符号
拼音音节、单词和句子规则表达模式
诸印文字
竹音音节规则表达模式
CC-CEDICT字符

zhon库的安装

pip install zhon

讯享网

如果有pycharm直接搜索安装

zhon库的使用方法

1、在字符串中查找CJK字符、验证拼音音节、单词或句子：

在字符串中查找CJK字符： >>> re.findall('[%s]' % zhon.hanzi.characters, 'I broke a plate: 我打破了一个盘子.') ['我', '打', '破', '了', '一', '个', '盘', '子'] 验证拼音音节、单词或句子： >>> re.findall(zhon.pinyin.syllable, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I) ['Yuàn', 'zi', 'lǐ', 'tíng', 'zhe', 'yí', 'liàng', 'chē'] >>> re.findall(zhon.pinyin.word, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I) ['Yuànzi', 'lǐ', 'tíngzhe', 'yí', 'liàng', 'chē'] >>> re.findall(zhon.pinyin.sentence, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I) ['Yuànzi lǐ tíngzhe yí liàng chē.']

讯享网

中文的处理

讯享网text_chinese = '自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。'

去除标点符号

我们适应zhon.hanzi.punctuation来调用中文符号。

import re from zhon.hanzi import punctuation #去除标点符号 chi_nopuc = re.sub("[{}]+".format(punctuation), "", text_chinese)

中文分词

jieba分词支持不同的分词方式，本文中使用的是默认模式

讯享网chi_token = jieba.lcut(chi_nopuc)

去除停用词

在这里，我们得先有一个停用词的列表。这个停用词没有一个标准化的指标，我自己的停用词下载：

#首先我们需要引入停用词 f = open(r"C:\Users\Mr.Reliable\Desktop\中文停用词.txt",'r',encoding = 'UTF-8') stopwords_n = f.readlines() f.close() #清洗停用词数据 stopwords = [sw.strip().replace('\n','') for sw in stopwords_n]

讯享网final = [] for chi in chi_token: if chi not in stopwords: final.append(chi) print(final)

输出的结果