zhon库的简介
包括常用常量:
中日韩文字和部首
中文标点符号
汉语句子规则表达模式
拼音元音、辅音、小写、大写和标点符号
拼音音节、单词和句子规则表达模式
诸印文字
竹音音节规则表达模式
CC-CEDICT字符
zhon库的安装
pip install zhon
如果有pycharm直接搜索安装
zhon库的使用方法
1、在字符串中查找CJK字符、验证拼音音节、单词或句子:
在字符串中查找CJK字符: >>> re.findall('[%s]' % zhon.hanzi.characters, 'I broke a plate: 我打破了一个盘子.') ['我', '打', '破', '了', '一', '个', '盘', '子'] 验证拼音音节、单词或句子: >>> re.findall(zhon.pinyin.syllable, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I) ['Yuàn', 'zi', 'lǐ', 'tíng', 'zhe', 'yí', 'liàng', 'chē'] >>> re.findall(zhon.pinyin.word, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I) ['Yuànzi', 'lǐ', 'tíngzhe', 'yí', 'liàng', 'chē'] >>> re.findall(zhon.pinyin.sentence, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I) ['Yuànzi lǐ tíngzhe yí liàng chē.']
讯享网
中文的处理
讯享网text_chinese = '自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。'
去除标点符号
我们适应zhon.hanzi.punctuation来调用中文符号。

import re from zhon.hanzi import punctuation #去除标点符号 chi_nopuc = re.sub("[{}]+".format(punctuation), "", text_chinese)
中文分词
jieba分词支持不同的分词方式,本文中使用的是默认模式
讯享网chi_token = jieba.lcut(chi_nopuc)
去除停用词
在这里,我们得先有一个停用词的列表。这个停用词没有一个标准化的指标,我自己的停用词下载:
#首先我们需要引入停用词 f = open(r"C:\Users\Mr.Reliable\Desktop\中文停用词.txt",'r',encoding = 'UTF-8') stopwords_n = f.readlines() f.close() #清洗停用词数据 stopwords = [sw.strip().replace('\n','') for sw in stopwords_n]
讯享网final = [] for chi in chi_token: if chi not in stopwords: final.append(chi) print(final)
输出的结果


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/63243.html