摘要: 在知识图谱构建阶段的实体对齐和属性值决策过程中、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知识。这篇文章主要是先叙述VSM和余弦相似度相关理论知识,然后引用阮一峰大神的例子进行解释,最后通过Python简单实现百度百科和互动百科Infobox的余弦相似度计算。基本步骤:1.分别统计两个文档的关键词 2.两篇文章的关键词合并成一个集合...希望文章对你有所帮助~ 阅读全文
posted @ 2015-12-18 03:11 Eastmount 阅读(8284) 评论(0) 推荐(0) 编辑
摘要: 本文主要是自己的在线代码笔记,在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容。PubMed是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE(生物医学数据库),其核心主题为医学,但亦包括其他与医学相关的领域,像是护理学或者其他健康学科。最后也希望这篇文章对你有所帮助吧!虽然文章内容很简单,但是对于初学者或者刚接触爬虫的同学来说,还是有一定帮助的。 阅读全文
posted @ 2015-12-18 03:00 Eastmount 阅读(6431) 评论(4) 推荐(0) 编辑
摘要: 本文主要针对Python使用urlretrieve或urlopen下载百度、搜狗、googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨。同时,作者将进一步帮你巩固Selenium自动化操作和urllib库等知识,感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~ 一.引入Selenium自动爬取百度图片 二.简单分析原因及巩固知识 三.解决方法 阅读全文
posted @ 2015-12-18 02:49 Eastmount 阅读(21068) 评论(0) 推荐(1) 编辑
摘要: 这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词 三. 基于VSM的文本聚类算法 不论如何,希望文章对你有所帮助,如果文章中有错误或不足之处,还请海涵!写文不易,且看且分析~ 阅读全文
posted @ 2015-12-18 02:30 Eastmount 阅读(55773) 评论(0) 推荐(3) 编辑
摘要: 这篇文章主要讲述Python如何安装Numpy、Scipy、Matlotlib、Scikit-learn等库的过程及遇到的问题解决方法。最近安装这个真是一把泪啊,各种不兼容问题和报错,希望文章对你有所帮助吧!你可能遇到的问题包括:ImportError: DLL load failed: 找不到指定的模块,同时给出了几个测试代码。 阅读全文
posted @ 2015-12-17 08:43 Eastmount 阅读(39722) 评论(6) 推荐(4) 编辑
摘要: 这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~记录此站第一篇文章,希望能分享更多文章于此!一.定位元素方法这里有各种策略用于定位网页中的元素(locate elements),你可以选择最适合的方案,Selenium提供了一下方法来定义一个页面中的元素:find_element_by_id find_element_by_name等 阅读全文
posted @ 2015-09-15 17:08 Eastmount 阅读(30360) 评论(0) 推荐(0) 编辑