2025年数据清洗--cleancc

科技前沿 • 2025-02-24 22:48 • 阅读 53

大家好，我是讯享网，很高兴认识大家。

数据清洗–cleancc

cleancc

快速清洗数据内容可以
项目地址(欢迎star):https://github.com/Amiee-well/clean

使用方法

pip install cleancc
import cleancc
共有五个函数调用：
1.第一个函数为punct：

[

去除标点并让所有字母小写

:param pop_list:所要处理的的列表格式

:param lower:是否转小写，默认是

:return all_comment:处理后的结果-字符串格式

]

2.第二个函数为statistics：

[

词频统计

:param pop_list:所要处理的的列表格式

:param symbol:是否去除标点，默认是

:param lower:是否转小写，默认是

:return wordCount_dict:统计结果-字典格式

]

3.第三个函数为stop_words：

[

删除词频统计中的停顿词

:param statis:是否选择词频清理

:param pop_list:所要处理的的列表格式

:param symbol:是否去除标点，默认是

讯享网

:param lower:是否转小写，默认是

:param wordCount_dict:词频统计结果-字典

:return wordCount_dict:清除后结果-字典格式

]

4.第四个函数为Count_Sort：

[

字典排名数目排序

:param wordCount_dict:词频统计结果-字典

:param choices_number:返回前choices_number个字典个数

:return keyword_list:出现的单词-列表格式

:return value_list:单词对应的词频-列表格式

]

5.第五个函数为word_all：

[

调用全部函数

:param pop_list:所要处理的的列表格式

:param choices_number:返回前choices_number个字典个数

:param symbol:是否去除标点，默认是

:param lower:是否转小写，默认是

:return keyword_list:出现的单词-列表格式

:return value_list:单词对应的词频-列表格式

]

注意事项

注意:处理数据参数类型为列表，需要pandas转换为列表后进行调用！
使用示例:

import pandas as pd from cleancc import clean from bs4 import BeautifulSoup df = pd.read_csv("label.csv",sep='\t', escapechar='\\') review_list = df['review'].tolist() comment_list = [BeautifulSoup(k,'lxml').text for k in review_list] print(comment_list) keyword_list, value_list = clean.word_all(comment_list,150) print(keyword_list, value_list)

讯享网

2025年数据清洗--cleancc

数据清洗–cleancc

cleancc

使用方法

注意事项

相关推荐