黄聪

论SEO对人类的重要性,请看我的博客:hcsem.com

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  786 随笔 :: 0 文章 :: 868 评论 :: 0 引用

公告

一、similar

用来识别文章中和搜索词相似的词语,可以用在搜索引擎中的相关度识别功能中。

text1.similar("monstrous")

查询出了text1中与monstrous相关的所有词语:

二、common_contexts

用来识别2个关键词相似的词语。

text2.common_contexts(["monstrous","very"])

三、generate

用来自动生成文章。

text3.generate()

四、len

可以用于判断重复词密度

from __future__ import division
len(text3)
/ len(set(text3))

图中显示 正文字数/不重复词语字数 = 16,说明有15/16是无效字符。

五、count

可以用于判断关键词密度。

text3.count('smote') / len(text3)

posted on 2011-08-29 12:29 黄聪 阅读(...) 评论(...) 编辑 收藏