Python提取关键字超棒的四种方法，NLP算法Rake、Yake等

扩大人2026-03-10 07:41:06

# Rake 方法介绍

Rake（Rapid Automatic Keyword Extraction）方法是一种用于从文本中快速自动提取关键字的技术。它基于词频统计和词之间的共现关系来确定关键字。

## 基本概念和原理
Rake 方法首先会对文本进行预处理，将其分词并去除停用词（如“的”“是”“在”等无实际意义的词）。然后，它会计算每个词的词频（TF），即该词在文本中出现的次数。接着，通过分析词之间的共现关系，计算每个词的词频-共现频率（TF*IDF）。其中，IDF（Inverse Document Frequency）是基于语料库中词的逆文档频率，反映了词的重要性。

具体来说，Rake 方法会构建一个词共现矩阵，统计相邻词之间的共现次数。例如，“数据挖掘”和“机器学习”经常一起出现，它们的共现次数就会较高。通过对这些共现关系的分析，Rake 方法能够确定哪些词组合在一起形成了有意义的关键字短语。

## 从文本中提取关键字的过程
假设我们有一段文本：“数据挖掘是一种重要的数据分析技术，它在机器学习领域有广泛应用。”

首先，分词并去除停用词后得到：“数据挖掘重要数据分析技术机器学习领域广泛应用”。

然后计算词频，比如“数据挖掘”出现 1 次，“重要”出现 1 次等。

接着构建共现矩阵，发现“数据挖掘”和“机器学习”共现，“数据分析技术”和“机器学习”共现等。

最后，根据 TF*IDF 计算结果，Rake 方法会提取出“数据挖掘”“机器学习”“数据分析技术”等作为关键字。

## 优势
1. **快速高效**：能够在短时间内从文本中提取关键字，适合处理大量文本数据。
2. **简单易用**：原理相对简单，易于理解和实现。
3. **考虑词间关系**：不仅仅基于词频，还考虑了词的共现关系，能更准确地提取有意义的关键字。

## 适用场景
适用于各种需要快速提取文本关键信息的场景，如文本摘要、信息检索、文档分类等。例如在搜索引擎中，Rake 方法可以帮助提取网页的关键字，以便更准确地进行索引和检索。在文本分类任务中，提取的关键字可以作为特征用于训练分类模型。

Rake 方法以其独特的原理和优势，在文本处理领域有着广泛的应用，为快速准确地获取文本关键信息提供了有效的手段。

# Yake 方法讲解

Yake 是一种高效的关键词提取方法，它在处理文本时展现出独特的思路和显著的优势。

Yake 方法的特点鲜明。它能够快速准确地从文本中识别出关键信息。与其他方法相比，Yake 更注重词频与词的重要性权重相结合。例如，在一些传统方法中，单纯依据词频来提取关键词可能会导致一些高频但语义价值不大的词被过度关注，而 Yake 通过综合考虑词在文本中的位置、与其他词的关联等因素，赋予更重要的词更高的权重，从而更精准地提取出真正能代表文本核心内容的关键词。

Yake 方法处理文本的独特思路和步骤如下：首先，它会对文本进行预处理，包括分词、去除停用词等操作，以便更好地聚焦于有实际意义的词汇。然后，通过统计词频和计算词的重要性得分。它会分析词与周围词的共现关系等，来确定每个词的权重。例如，一个词如果经常与一些关键主题词同时出现，那么它的权重就会相应提高。最后，根据设定的阈值，筛选出得分较高的词作为关键词。

在不同类型文本上，Yake 方法都有出色的应用案例。比如在新闻文本中，Yake 能够快速提取出事件的核心人物、关键地点和主要事件等关键词。以一篇关于科技公司新产品发布的新闻为例，Yake 可以准确提取出公司名称、产品名称、发布时间等重要信息，帮助读者迅速了解新闻要点。在学术论文中，Yake 能提取出研究的核心概念、关键理论等。对于一篇关于人工智能算法优化研究的论文，Yake 可以精准找出如“人工智能算法”“优化策略”等关键词，方便读者把握论文主旨。

Yake 方法的独特之处在于其综合考量多种因素来确定关键词的方式，这种方式使得提取出的关键词更具代表性和准确性，能更好地服务于文本的理解、信息检索和内容分析等多个领域，为高效处理文本提供了有力的支持。

《Keybert 和 Textrank 方法剖析》

Keybert 方法是一种基于预训练语言模型的关键字提取方法。它的原理是利用预训练模型对文本进行编码，然后通过计算词与词之间的相似度，选择相似度较高的词作为关键字。Keybert 的工作方式如下：首先，它会将输入的文本进行分词，然后将每个词映射到预训练模型的词向量空间中。接着，它会计算每个词与其他词之间的相似度，通常使用余弦相似度。最后，它会选择相似度较高的词作为关键字。

例如，对于文本“人工智能是一门非常有前途的技术”，Keybert 会将其分词为“人工智能”、“是”、“一门”、“非常”、“有前途”、“的”、“技术”。然后，它会将这些词映射到预训练模型的词向量空间中，并计算它们之间的相似度。假设“人工智能”与“技术”的相似度较高，那么 Keybert 可能会选择“人工智能”和“技术”作为关键字。

Textrank 方法是一种基于文本排序的关键字提取方法。它的原理是将文本中的每个词看作一个节点，然后通过计算词与词之间的相似度，构建一个词的网络。接着，它会使用 PageRank 算法对这个网络进行排序，选择排序较高的词作为关键字。Textrank 的工作方式如下：首先，它会将输入的文本进行分词，然后将每个词看作一个节点。接着，它会计算每个词与其他词之间的相似度，构建一个词的网络。最后，它会使用 PageRank 算法对这个网络进行排序，选择排序较高的词作为关键字。

例如，对于文本“人工智能是一门非常有前途的技术”，Textrank 会将其分词为“人工智能”、“是”、“一门”、“非常”、“有前途”、“的”、“技术”。然后，它会将这些词看作节点，构建一个词的网络。假设“人工智能”与“技术”的相似度较高，那么 Textrank 可能会选择“人工智能”和“技术”作为关键字。

Keybert 和 Textrank 方法的异同点如下：
- **相同点**：它们都是基于文本的关键字提取方法，都需要对文本进行分词和相似度计算。
- **不同点**：Keybert 方法基于预训练语言模型，而 Textrank 方法基于文本排序；Keybert 方法选择相似度较高的词作为关键字，而 Textrank 方法选择排序较高的词作为关键字。

结合实际文本示例，展示这两种方法提取关键字的过程和结果：
- **文本**：“人工智能是一门非常有前途的技术，它将改变我们的生活方式。”
- **Keybert 方法**：
- 分词：“人工智能”、“是”、“一门”、“非常”、“有前途”、“的”、“技术”、“它”、“将”、“改变”、“我们”、“的”、“生活方式”。
- 计算相似度：使用预训练模型计算每个词与其他词之间的相似度。
- 选择关键字：选择相似度较高的词作为关键字，如“人工智能”、“技术”、“有前途”。
- **Textrank 方法**：
- 分词：“人工智能”、“是”、“一门”、“非常”、“有前途”、“的”、“技术”、"它”、“将”、“改变”、“我们”、“的”、“生活方式”。
- 构建词网络：将每个词看作节点，构建一个词的网络。
- 计算 PageRank 值：使用 PageRank 算法计算每个词的 PageRank 值。
- 选择关键字：选择 PageRank 值较高的词作为关键字，如“人工智能”、“技术”、“改变”。

通过以上分析可以看出，Keybert 和 Textrank 方法都是有效的关键字提取方法，它们各有优缺点，适用于不同的场景。在实际应用中，可以根据具体需求选择合适的方法。