tf*idf 用于文本分类中的特征提取

    xiaoxiao2025-12-16  12

    tf*idf

    tf*idf,term frequency * inverse document frequency,词频 *逆向文档频率。

    1.思想

    TF-IDF是一种统计方法,用于评估某个词语在文档集合中的重要程度。 如果某个词语term在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为这个词语具有很好的文档分类能力。

    2.公式

    tfij=termidocjdocj,表示词语i在文档j中的频率。 idfi=lg(i),含有词语i的文档数越少,则此项得分最高。 tfidfi=idfijntfij,得分越高表示词语i对文章的分类能力越强。

    3.用途

    文本分类中的特征提取。

    相关资源:python TF-IDF算法实现文本关键词提取
    最新回复(0)