🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎
📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃
🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝
📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】 深度学习【DL】
讯享网🖍foreword
✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。
如果你对这个系列感兴趣的话,可以关注订阅哟👋
文章目录
什么是自然语言处理?
自然语言处理 (NLP) 技术
1) 代币化
2)词干提取和词形还原
3) 停用词去除
4)TF-IDF
词频
逆向文档频率
5)关键词提取
6) 词嵌入
Word2Vec
8) 主题建模
9) 文本摘要
10)命名实体识别
关键要点
自然语言处理是人工智能的一个子领域,旨在让机器像人类一样理解自然语言。NLP 技术的力量可以追溯到 1950 年代的图灵测试(也称为模仿游戏),该测试用于确定机器是否可以被认为是智能的。”
如果一台计算机能够欺骗人类相信它是人类,那么它就应该被称为智能计算机。”- 艾伦图灵
什么是自然语言处理?
自然语言处理 (NLP) 是计算机科学的一个领域,特别是人工智能 (AI) 的一个子集,专注于使计算机能够像人类一样理解文本和口语。它需要开发算法和模型,使计算机能够理解、解释和生成书面和口头形式的人类语言。
机器中自然语言处理的任务分为两个子任务:-
- 自然语言理解:不仅旨在处理语言的句法结构,而且还从中导出语义的技术属于此子任务——语音识别、命名实体识别、文本分类。
- 自然语言生成:从 NLU 派生的知识通过语言生成更进一步。例如 – 问答、文本生成(您在上面读过的 GPT 的诗)、语音生成(在虚拟助手中找到)。
现在,诸如语言翻译、搜索自动建议之类的NLP应用程序从名称来看可能看起来很简单,但它们是使用一些基本且简单的 NLP 技术的管道开发的。在继续讨论这些技术之前,让我们简要概述一下常用的两种主要类型的 NLP 算法 -
- 基于规则的系统 - 这些算法使用预定义的规则和模式来处理和理解语言。
- 基于机器学习的系统——这些算法使用统计和机器学习技术从数据中学习,并根据文本中的模式进行预测或分类。
自然语言处理 (NLP) 技术
自然语言处理 (NLP) 用于从文本中提取数据的十大技术是:
1) 代币化
在进行自然语言处理时,标记化是最基本和最简单的 NLP 技术之一。在为任何 NLP 应用程序预处理文本时,标记化是一个重要步骤。一个长时间运行的文本字符串被分解成更小的单元,称为标记,这些单元构成单词、符号、数字等。这些标记是构建块,有助于在开发 NLP 模型时理解上下文。大多数分词器使用“空格”作为分隔符来形成分词。基于建模的语言和目的,NLP 中使用了多种标记化技术——
- 基于规则的标记化
- 空白标记化
- 空间分词器
- 子词分词
- 基于字典的标记化
- Penn Tree的标记化
让我们尝试在 Python 中实现 Tokenization NLP 技术。我们首先使用 scikit-learn 加载 20newsgroup 文本分类数据集。


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/41355.html