03 2015 档案

提取文章的关键词(一)
摘要:很多场合我们需要用简短的几句话来说明一篇文章的中心思想,用几个关键词来说明文章的主题。如果你写过论文的话,一定会对这些十分熟悉。一篇好的论文精炼的摘要和正确的关键词是必不可少的。这种提取关键词这种又枯燥又麻烦的事情肯定得教给计算机来做。当然是用的是我最爱的Python编程语言啦。1 出现频率最高的词... 阅读全文

posted @ 2015-03-29 20:11 meelo 阅读(2523) 评论(0) 推荐(0)

寻找与网页内容相关的图片(一) 开放图谱计划
摘要:要想找到网页里那些图片和网页的内容相关绝不是一件容易的事,网页里有各式各样的图片,广告啦、推荐其他网页的缩略图啦、logo等等,可是在与网页相关的图片少之又少。过去大家都觉得没必要有文字就足够了,可到了信息大爆炸的时代,面对海量网页,人们早已没有了兴趣。第一个不得不面临这个问题地是社交网站,人们除了... 阅读全文

posted @ 2015-03-19 20:04 meelo 阅读(309) 评论(0) 推荐(0)

识别验证码:寻找数字的位置(三)
摘要:1 没有意料的的问题上回通过机器学习算法已经能够很好地找到那些图片里完整地存在数字,选择出这张图片有助于下一步识别图片中的数字,如果数字包含得都不完整,就不用说识别图片里的数字了。红色边框表示算法判断存在数字正如人有时很难在一小片图片中判断哪个图片里的数字最完整,算法会找到一小片包含数字的小方块,这... 阅读全文

posted @ 2015-03-05 21:17 meelo 阅读(715) 评论(0) 推荐(0)

识别验证码:寻找数字的位置(二)
摘要:有了数据,剩下的就是流水线上的活:利用某种机器学习算法学习得到模型,在用模型进行预测,评价模型的性能。 1 分割训练集和测试集 Python的机器学习包sklearn非常强大,它不仅包含了不论监督学习、非监督学习的算法,同时包括了进行常用预处理和其他流程的函数。分割训练集和测试集的函数虽然很简单,但 阅读全文

posted @ 2015-03-04 21:59 meelo 阅读(655) 评论(0) 推荐(0)

识别验证码:寻找数字的位置(一)
摘要:1 接下来前面我用Python的pillow库生成了一些验证码,这些验证码都非常弱,没有其他线条的干扰,数字还没有混叠在一起,肯定能够被高手轻松破译。但那些简单原始的验证码,不失为学习如何识别图片中数字很好的原料,那就是我接下来要做的。2 寻找数字的位置要想计算机识别验证码的数字,必须找到数字的位置... 阅读全文

posted @ 2015-03-03 15:37 meelo 阅读(1600) 评论(0) 推荐(0)