Eastmount

2015年12月18日

摘要：在知识图谱构建阶段的实体对齐和属性值决策过程中、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等，都涉及到了向量空间模型（Vector Space Model，简称VSM）和余弦相似度计算相关知识。这篇文章主要是先叙述VSM和余弦相似度相关理论知识，然后引用阮一峰大神的例子进行解释，最后通过Python简单实现百度百科和互动百科Infobox的余弦相似度计算。基本步骤：1.分别统计两个文档的关键词 2.两篇文章的关键词合并成一个集合...希望文章对你有所帮助~ 阅读全文

posted @ 2015-12-18 03:11 Eastmount 阅读(8382) 评论(0) 推荐(0)

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息

摘要：本文主要是自己的在线代码笔记，在生物医学本体Ontology构建过程中，我使用Selenium定向爬取生物医学PubMed数据库的内容。PubMed是一个免费的搜寻引擎，提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE（生物医学数据库），其核心主题为医学，但亦包括其他与医学相关的领域，像是护理学或者其他健康学科。最后也希望这篇文章对你有所帮助吧！虽然文章内容很简单，但是对于初学者或者刚接触爬虫的同学来说，还是有一定帮助的。阅读全文

posted @ 2015-12-18 03:00 Eastmount 阅读(6588) 评论(4) 推荐(0)

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

摘要：本文主要针对Python使用urlretrieve或urlopen下载百度、搜狗、googto（谷歌镜像）等图片时，出现"无法打开图片或已损坏"的问题，作者对它进行简单的探讨。同时，作者将进一步帮你巩固Selenium自动化操作和urllib库等知识，感谢朋友"露为霜"的帮助！希望以后能实现强大的图片爬虫代码~ 一.引入Selenium自动爬取百度图片二.简单分析原因及巩固知识三.解决方法阅读全文

posted @ 2015-12-18 02:49 Eastmount 阅读(21386) 评论(0) 推荐(1)

[python] 使用Jieba工具中文分词及文本聚类概念

摘要：这篇文章主要是爬取百度5A景区摘要信息，再利用Jieba分词工具进行中文分词，最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词三. 基于VSM的文本聚类算法不论如何，希望文章对你有所帮助，如果文章中有错误或不足之处，还请海涵！写文不易，且看且分析~ 阅读全文

posted @ 2015-12-18 02:30 Eastmount 阅读(55936) 评论(0) 推荐(3)

2015年12月17日

[python] 安装numpy+scipy+matlotlib+scikit-learn及问题解决

摘要：这篇文章主要讲述Python如何安装Numpy、Scipy、Matlotlib、Scikit-learn等库的过程及遇到的问题解决方法。最近安装这个真是一把泪啊，各种不兼容问题和报错，希望文章对你有所帮助吧！你可能遇到的问题包括：ImportError: DLL load failed: 找不到指定的模块，同时给出了几个测试代码。阅读全文

posted @ 2015-12-17 08:43 Eastmount 阅读(41185) 评论(6) 推荐(4)

2015年9月15日

[python爬虫] Selenium常见元素定位方法和操作的学习介绍

摘要：这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍，希望该篇基础性文章对你有所帮助，如果有错误或不足之处，请海涵~记录此站第一篇文章，希望能分享更多文章于此！一.定位元素方法这里有各种策略用于定位网页中的元素(locate elements)，你可以选择最适合的方案，Selenium提供了一下方法来定义一个页面中的元素：find_element_by_id find_element_by_name等阅读全文

posted @ 2015-09-15 17:08 Eastmount 阅读(30497) 评论(0) 推荐(0)

公告