2025年【NLP】每个NLP工程师都应该知道的10 种不同的 NLP 技术

科技前沿 • 2025-04-09 23:51 • 阅读 51

大家好，我是讯享网，很高兴认识大家。

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎

📝个人主页－Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝

📣系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

讯享网

🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟👋

文章目录

什么是自然语言处理？

自然语言处理 (NLP) 技术

1) 代币化

2）词干提取和词形还原

3) 停用词去除

4）TF-IDF

词频

逆向文档频率

5）关键词提取

6) 词嵌入

Word2Vec

8) 主题建模

9) 文本摘要

10）命名实体识别

关键要点

自然语言处理是人工智能的一个子领域，旨在让机器像人类一样理解自然语言。NLP 技术的力量可以追溯到 1950 年代的图灵测试（也称为模仿游戏），该测试用于确定机器是否可以被认为是智能的。”

如果一台计算机能够欺骗人类相信它是人类，那么它就应该被称为智能计算机。”- 艾伦图灵

什么是自然语言处理？

自然语言处理 (NLP) 是计算机科学的一个领域，特别是人工智能 (AI) 的一个子集，专注于使计算机能够像人类一样理解文本和口语。它需要开发算法和模型，使计算机能够理解、解释和生成书面和口头形式的人类语言。

机器中自然语言处理的任务分为两个子任务：-

自然语言理解：不仅旨在处理语言的句法结构，而且还从中导出语义的技术属于此子任务——语音识别、命名实体识别、文本分类。
自然语言生成：从 NLU 派生的知识通过语言生成更进一步。例如 – 问答、文本生成（您在上面读过的 GPT 的诗）、语音生成（在虚拟助手中找到）。

现在，诸如语言翻译、搜索自动建议之类的NLP应用程序从名称来看可能看起来很简单，但它们是使用一些基本且简单的 NLP 技术的管道开发的。在继续讨论这些技术之前，让我们简要概述一下常用的两种主要类型的 NLP 算法 -

基于规则的系统 - 这些算法使用预定义的规则和模式来处理和理解语言。
基于机器学习的系统——这些算法使用统计和机器学习技术从数据中学习，并根据文本中的模式进行预测或分类。

自然语言处理 (NLP) 技术

自然语言处理 (NLP) 用于从文本中提取数据的十大技术是：

1) 代币化

在进行自然语言处理时，标记化是最基本和最简单的 NLP 技术之一。在为任何 NLP 应用程序预处理文本时，标记化是一个重要步骤。一个长时间运行的文本字符串被分解成更小的单元，称为标记，这些单元构成单词、符号、数字等。这些标记是构建块，有助于在开发 NLP 模型时理解上下文。大多数分词器使用“空格”作为分隔符来形成分词。基于建模的语言和目的，NLP 中使用了多种标记化技术——

基于规则的标记化
空白标记化
空间分词器
子词分词
基于字典的标记化
Penn Tree的标记化

让我们尝试在 Python 中实现 Tokenization NLP 技术。我们首先使用 scikit-learn 加载 20newsgroup 文本分类数据集。

2025年【NLP】每个NLP工程师都应该知道的10 种不同的 NLP 技术

🖍foreword

什么是自然语言处理？

自然语言处理 (NLP) 技术

1) 代币化

相关推荐