2025年【NLP】每个NLP工程师都应该知道的10 种不同的 NLP 技术

【NLP】每个NLP工程师都应该知道的10 种不同的 NLP 技术大家好 我是 Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN 博客 欢迎各位 点赞 收藏

大家好,我是讯享网,很高兴认识大家。

 🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎

📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​

📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】  深度学习【DL】


讯享网​​

 🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。

如果你对这个系列感兴趣的话,可以关注订阅哟👋

文章目录

什么是自然语言处理?

自然语言处理 (NLP) 技术

1) 代币化

2)词干提取和词形还原

3) 停用词去除

4)TF-IDF

词频

逆向文档频率

5)关键词提取

6) 词嵌入

Word2Vec

8) 主题建模

9) 文本摘要

10)命名实体识别

关键要点


自然语言处理是人工智能的一个子领域,旨在让机器像人类一样理解自然语言。NLP 技术的力量可以追溯到 1950 年代的图灵测试(也称为模仿游戏),该测试用于确定机器是否可以被认为是智能的。”

如果一台计算机能够欺骗人类相信它是人类,那么它就应该被称为智能计算机。”- 艾伦图灵

什么是自然语言处理?

自然语言处理 (NLP) 是计算机科学的一个领域,特别是人工智能 (AI) 的一个子集,专注于使计算机能够像人类一样理解文本和口语。它需要开发算法和模型,使计算机能够理解、解释和生成书面和口头形式的人类语言。

机器中自然语言处理的任务分为两个子任务:-

  • 自然语言理解:不仅旨在处理语言的句法结构,而且还从中导出语义的技术属于此子任务——语音识别、命名实体识别、文本分类。
  • 自然语言生成:从 NLU 派生的知识通过语言生成更进一步。例如 – 问答、文本生成(您在上面读过的 GPT 的诗)、语音生成(在虚拟助手中找到)。  

现在,诸如语言翻译、搜索自动建议之类的NLP应用程序从名称来看可能看起来很简单,但它们是使用一些基本且简单的 NLP 技术的管道开发的。在继续讨论这些技术之前,让我们简要概述一下常用的两种主要类型的 NLP 算法 -

  • 基于规则的系统 - 这些算法使用预定义的规则和模式来处理和理解语言。
  • 基于机器学习的系统——这些算法使用统计和机器学习技术从数据中学习,并根据文本中的模式进行预测或分类。

自然语言处理 (NLP) 技术

自然语言处理 (NLP) 用于从文本中提取数据的十大技术是:

1) 代币化

在进行自然语言处理时,标记化是最基本和最简单的 NLP 技术之一。在为任何 NLP 应用程序预处理文本时,标记化是一个重要步骤。一个长时间运行的文本字符串被分解成更小的单元,称为标记,这些单元构成单词、符号、数字等。这些标记是构建块,有助于在开发 NLP 模型时理解上下文。大多数分词器使用“空格”作为分隔符来形成分词。基于建模的语言和目的,NLP 中使用了多种标记化技术——

  • 基于规则的标记化
  • 空白标记化
  • 空间分词器
  • 子词分词
  • 基于字典的标记化
  • Penn Tree的标记化

让我们尝试在 Python 中实现 Tokenization NLP 技术。我们首先使用 scikit-learn 加载 20newsgroup 文本分类数据集。

小讯
上一篇 2025-02-10 16:32
下一篇 2025-02-26 12:55

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/41355.html