摘要: 最近在使用Python爬取网页内容时,总是遇到JS临时加载、动态获取网页信息的困难。例如爬取CSDN下载资源评论、搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题。这第一篇文章当然就是安装过程及入门介绍,主要先介绍Phantomjs安装过程及常见用法,参考官方文档,包括:网页截图、页面加载、代码运算、DOM操作、网络请求及响应等,希望对你有所帮助~ 阅读全文
posted @ 2015-12-18 04:00 Eastmount 阅读(2007) 评论(0) 推荐(0) 编辑
摘要: 最近准备深入学习Python相关的爬虫知识了,如果说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正则表达式"就能搞定的话;那么动态生成的信息页面,如Ajax、JavaScript等就需要通过"Phantomjs + CasperJS + Selenium"来实现了。所以先从安装和功能介绍入门,后面在介绍一些Python相关的爬虫应用。基础性文章希望对你有所帮助~ 阅读全文
posted @ 2015-12-18 03:56 Eastmount 阅读(3047) 评论(0) 推荐(0) 编辑
摘要: 该篇文章主要介绍在Windows下通过Selenium+Python实现自动访问Firefox和Chrome并实现访问百度自动搜索并截图的功能。这是一个使用Selenium的简单应用,并附有详细的注释,参考官方文档,希望对你有所帮助~ 阅读全文
posted @ 2015-12-18 03:54 Eastmount 阅读(3817) 评论(0) 推荐(0) 编辑
摘要: 前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能。而这篇文章主要简单介绍如何实现自动登录163邮箱,同时继续介绍Selenium+Python官网Locating Elements部分内容。第一次翻译文档,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~ 阅读全文
posted @ 2015-12-18 03:52 Eastmount 阅读(3886) 评论(1) 推荐(0) 编辑
摘要: 前面几篇文章介绍了Selenium、PhantomJS的基础知识及安装过程,这篇文章是一篇应用。通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是通过JavaScript动态加载的,故通过Phantomjs模拟浏览器加载获取。 希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~ 阅读全文
posted @ 2015-12-18 03:47 Eastmount 阅读(2463) 评论(0) 推荐(0) 编辑
摘要: 前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(InfoBox),这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作。希望文章对你有所帮助~ 阅读全文
posted @ 2015-12-18 03:44 Eastmount 阅读(614) 评论(0) 推荐(0) 编辑
摘要: 最近研究搜索引擎、知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前。虽然市面上讲述中文编码问题的文章数不胜数,但是此处还是准备简单做下笔记。方便以后查阅和大家学习。主要包括raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题。 纪伯伦曾说过:“你无法同时拥有青春和关于青春的知识;因为青春忙于生计,没有余暇去求知;而知识忙于寻求自我,无法享受生活。”同样现在找工作的我,无法在拥有扎实基础知识的同时又兼顾深度的项目理解,但我更倾向于分享知识,因为它就是寻求自我,就是 阅读全文
posted @ 2015-12-18 03:42 Eastmount 阅读(9760) 评论(0) 推荐(1) 编辑
摘要: 我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的。首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 2.学习Selenium自动、测试分析动态网页和正则表达式的区别和共同点 3.了解作者最近学习得比较多的搜索引擎和知识图谱的整体框架 4.同时作者最近找工作,里面的一些杂谈和建议也许对即将成为应届生的你有所帮助 5.当然,最重要的是你也可以尝试使用这个爬虫去爬取自己比较喜欢的图片 总之,希望文章对你有所帮助。如果作者又不足 阅读全文
posted @ 2015-12-18 03:35 Eastmount 阅读(2890) 评论(1) 推荐(0) 编辑
摘要: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队、CBA明星、花边新闻、球鞋美女等等,如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧!所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。最后希望读到此文的朋友,能收获一些东西,谢谢~ 阅读全文
posted @ 2015-12-18 03:29 Eastmount 阅读(2050) 评论(0) 推荐(0) 编辑
摘要: 前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作。但是,更为广泛使用的Python爬虫框架是——Scrapy爬虫。这是一篇在Windows系统下介绍 Scrapy爬虫安装及入门介绍的相关文章。包括安装过程及入门的爬取腾讯招聘信息流程及结果,希望文章对你有所帮助~ 阅读全文
posted @ 2015-12-18 03:23 Eastmount 阅读(2145) 评论(0) 推荐(0) 编辑
摘要: 在知识图谱构建阶段的实体对齐和属性值决策过程中、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知识。这篇文章主要是先叙述VSM和余弦相似度相关理论知识,然后引用阮一峰大神的例子进行解释,最后通过Python简单实现百度百科和互动百科Infobox的余弦相似度计算。基本步骤:1.分别统计两个文档的关键词 2.两篇文章的关键词合并成一个集合...希望文章对你有所帮助~ 阅读全文
posted @ 2015-12-18 03:11 Eastmount 阅读(8284) 评论(0) 推荐(0) 编辑
摘要: 本文主要是自己的在线代码笔记,在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容。PubMed是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE(生物医学数据库),其核心主题为医学,但亦包括其他与医学相关的领域,像是护理学或者其他健康学科。最后也希望这篇文章对你有所帮助吧!虽然文章内容很简单,但是对于初学者或者刚接触爬虫的同学来说,还是有一定帮助的。 阅读全文
posted @ 2015-12-18 03:00 Eastmount 阅读(6431) 评论(4) 推荐(0) 编辑
摘要: 本文主要针对Python使用urlretrieve或urlopen下载百度、搜狗、googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨。同时,作者将进一步帮你巩固Selenium自动化操作和urllib库等知识,感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~ 一.引入Selenium自动爬取百度图片 二.简单分析原因及巩固知识 三.解决方法 阅读全文
posted @ 2015-12-18 02:49 Eastmount 阅读(21068) 评论(0) 推荐(1) 编辑
摘要: 这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词 三. 基于VSM的文本聚类算法 不论如何,希望文章对你有所帮助,如果文章中有错误或不足之处,还请海涵!写文不易,且看且分析~ 阅读全文
posted @ 2015-12-18 02:30 Eastmount 阅读(55773) 评论(0) 推荐(3) 编辑