TF-IDF算法

TF-IDF(TERMFREQUENCY-INVERSE DOCUMENT FREQUENCY)算法,该算法的两个主要目的:计算词的TF值、 计算词的IDF值

其中一篇文档中词W的TF值的计算公式为:

TF(W) = {W的出现次数} / N

其中N为该篇文档中出现的所有分词(不考虑停用词)

因为对于一篇文档,只是单纯的根据每个分词的词频来确定该词对该文档的重要程度

有一个大的缺陷,例如:一个词在很多文档中都出现过,那么我们可以认为该词对不

同文档的区分度不是很明显,所以还需要计算该词的IDF值,该值能够表征某个词的

特异性(即根据这个词可以很容易区分文档的类别)。

IDF值得计算公式为:

IDF(W) = LOG( {语料库中的总文档数} / (语料库中的文档含有W的总文档数 + 1))

之后就可以得到某个词的 TF-IDF值:

TF-IDF(W) = TF(W) * IDF(W)

PS: 因为TF-IDF算法并没有考虑到词的位置,所以一般会使用改进的TF-IDF算法,大致过程就是对于标题出现的分词、对文档中每段开始一句的所有分词给予更大的权重。
目前ANSJ是基于TF-IDF算法的中文处理框架

发表评论