Eastmount

2015年12月18日

[Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)

摘要：最近在使用Python爬取网页内容时，总是遇到JS临时加载、动态获取网页信息的困难。例如爬取CSDN下载资源评论、搜狐图片中的“原图”等，此时尝试学习Phantomjs和CasperJS来解决这个问题。这第一篇文章当然就是安装过程及入门介绍，主要先介绍Phantomjs安装过程及常见用法，参考官方文档，包括：网页截图、页面加载、代码运算、DOM操作、网络请求及响应等，希望对你有所帮助~ 阅读全文

posted @ 2015-12-18 04:00 Eastmount 阅读(2052) 评论(0) 推荐(0)

[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

摘要：最近准备深入学习Python相关的爬虫知识了，如果说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正则表达式"就能搞定的话；那么动态生成的信息页面，如Ajax、JavaScript等就需要通过"Phantomjs + CasperJS + Selenium"来实现了。所以先从安装和功能介绍入门，后面在介绍一些Python相关的爬虫应用。基础性文章希望对你有所帮助~ 阅读全文

posted @ 2015-12-18 03:56 Eastmount 阅读(3095) 评论(0) 推荐(0)

[Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图

摘要：该篇文章主要介绍在Windows下通过Selenium+Python实现自动访问Firefox和Chrome并实现访问百度自动搜索并截图的功能。这是一个使用Selenium的简单应用，并附有详细的注释，参考官方文档，希望对你有所帮助~ 阅读全文

posted @ 2015-12-18 03:54 Eastmount 阅读(3898) 评论(0) 推荐(0)

[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

摘要：前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能。而这篇文章主要简单介绍如何实现自动登录163邮箱，同时继续介绍Selenium+Python官网Locating Elements部分内容。第一次翻译文档，希望该篇基础性文章对你有所帮助，如果有错误或不足之处，请海涵~ 阅读全文

posted @ 2015-12-18 03:52 Eastmount 阅读(4065) 评论(1) 推荐(0)

[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论

摘要：前面几篇文章介绍了Selenium、PhantomJS的基础知识及安装过程，这篇文章是一篇应用。通过Selenium调用Phantomjs获取CSDN下载资源的信息，最重要的是动态获取资源的评论，它是通过JavaScript动态加载的，故通过Phantomjs模拟浏览器加载获取。希望该篇基础性文章对你有所帮助，如果有错误或不足之处，请海涵~ 阅读全文

posted @ 2015-12-18 03:47 Eastmount 阅读(2500) 评论(0) 推荐(0)

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

摘要：前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒，同样可以通过Spider获取网站内容，最近学习了Selenium+Phantomjs后，准备利用它们获取百度百科的旅游景点消息盒（InfoBox），这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作。希望文章对你有所帮助~ 阅读全文

posted @ 2015-12-18 03:44 Eastmount 阅读(650) 评论(0) 推荐(0)

[Python] 中文编码问题：raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题

摘要：最近研究搜索引擎、知识图谱和Python爬虫比较多，中文乱码问题再次浮现于眼前。虽然市面上讲述中文编码问题的文章数不胜数，但是此处还是准备简单做下笔记。方便以后查阅和大家学习。主要包括raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题。纪伯伦曾说过：“你无法同时拥有青春和关于青春的知识；因为青春忙于生计，没有余暇去求知；而知识忙于寻求自我，无法享受生活。”同样现在找工作的我，无法在拥有扎实基础知识的同时又兼顾深度的项目理解，但我更倾向于分享知识，因为它就是寻求自我，就是阅读全文

posted @ 2015-12-18 03:42 Eastmount 阅读(9909) 评论(0) 推荐(1)

[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

摘要：我自认为这是自己写过博客中一篇比较优秀的文章，同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的。首先通过这篇文章，你能学到以下几点： 1.可以了解Python简单爬取图片的一些思路和方法 2.学习Selenium自动、测试分析动态网页和正则表达式的区别和共同点 3.了解作者最近学习得比较多的搜索引擎和知识图谱的整体框架 4.同时作者最近找工作，里面的一些杂谈和建议也许对即将成为应届生的你有所帮助 5.当然，最重要的是你也可以尝试使用这个爬虫去爬取自己比较喜欢的图片总之，希望文章对你有所帮助。如果作者又不足阅读全文

posted @ 2015-12-18 03:35 Eastmount 阅读(2961) 评论(1) 推荐(0)

[python爬虫] Selenium定向爬取虎扑篮球海量精美图片

摘要：作为一名从小就看篮球的球迷，会经常逛虎扑篮球及湿乎乎等论坛，在论坛里面会存在很多精美图片，包括NBA球队、CBA明星、花边新闻、球鞋美女等等，如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧！所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。最后希望读到此文的朋友，能收获一些东西，谢谢~ 阅读全文

posted @ 2015-12-18 03:29 Eastmount 阅读(2127) 评论(0) 推荐(0)

[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍

摘要：前面介绍了很多Selenium基于自动测试的Python爬虫程序，主要利用它的xpath语句，通过分析网页DOM树结构进行爬取内容，同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作。但是，更为广泛使用的Python爬虫框架是——Scrapy爬虫。这是一篇在Windows系统下介绍 Scrapy爬虫安装及入门介绍的相关文章。包括安装过程及入门的爬取腾讯招聘信息流程及结果，希望文章对你有所帮助~ 阅读全文

posted @ 2015-12-18 03:23 Eastmount 阅读(2200) 评论(0) 推荐(0)

公告