行业关键词分析。上次为了了解分词技术,顺便自己做了个文章分析系统拿来做实验,其中了解到这是一个很深奥的东西。由开始自己写分词,到感觉自己分词难道太大,选择使用了开源的分词组件,分词基本成功后,发现有点意思,于是采集户外运动类的行业文章,10万多篇,为了分析这10多万篇文章,又重新做了下程序,每10篇文章分析一次,其中又涉及到了跨线程和多线程的东西。这下好了,终于做完了,于是开始执行操作了,这一执行,时间就久了,一个上午才全部分析完成,并且把关键词存入了数据库表。我是个想法挺多的人,既然有了这个关键词表那我也要做点什么了,于是在sql一顿乱分析,感觉怎么也分析不出整个行业的相关关键词,到了这里,深深的感觉到,好难。不知道园子里面有谁做过这些研究。好了,这个地方暂时就被我放下了,我还是不甘心,总得有点收获吧,于是,还是利用前面的分章分析系统,在分析关键词的时候,顺便加入伪原创的简单算法,采集了几千个图片,然后随机的插入了每个段落的最后,在每个句号等后面加上关键词,然后在网上找到了一个替换词表,把所有的替换词表都替换一次。这样基本也算完成一件事情了,利用这个数据,然后加上dede系统,一个伪原创的超级大站就被我捣鼓出来了。呼呼,真的是够折腾的了,感慨,我的时间真多。不知道这样是不是属于浪费时间和生命,有共同爱好的联系我哦。

贴几个常会用的sql吧,因为我以前经常找这样的语句,好难找,希望以后对在网上找这些的人有帮助。

insert into keywords_step2(keywordsStr,allCount)( select keywordsStr,allCount from keywords where CHAR_LENGTH(keywordsStr) >= 2 order by allCount desc)

 

insert into keywords(keywordsStr,allCount)
(select keywords,sum(singleCount) from articlekeywords
group by keywords
order by sum(singleCount) desc)

 

 

 


insert into keywords_step2(keywordsStr,allCount)( select keywordsStr,allCount from keywords where CHAR_LENGTH(keywordsStr) >= 2 order by allCount desc)


 

 

posted on 2010-04-24 09:23  Mix  阅读(408)  评论(1编辑  收藏  举报