2013 年 5月 10 日随笔档案 - Léon

用python做爬虫的多种方法选择

摘要： S1.目标抓取一个网页并分析，从而：得到半结构化数据，如抓取新浪微博一个页面中的内容。得到其他网页的指针，如抓取新浪微博中下一个页面。下载文件，如这次要下载PDF的任务。多线程抓取与分布式抓取。自动密钥破解。S2.方法概述有多少种方法可以用的呢？1.自己写urllib2+urlparse+re最原始的办法，其中urllib2是python的web库、urlparse能处理url、re是正则库，这种方法写起来比较繁琐，但也比较“实在”，具体可以参考[4].urllib2+beautifulsoup这里的得力干将是beautifulsoup[5]，beautifulsoup可以非常有效的解析HTM 阅读全文

posted @ 2013-05-10 14:23 Léon 阅读(813) 评论(0) 推荐(0)

可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据【转】

摘要：使用基本的 Python 模块，可以编写脚本来与 Web 站点交互，但是如果没有必要的话，那么您就不希望这样做。Python 2.x 中的模块urllib和urllib2，以及 Python 3.0 中的统一的urllib.*子包，可以在 URL 的末尾获取资源。然而，当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时，您需要使用mechanize库（参见参考资料获得下载链接）。在自动化 Web scrap 或用户与 Web 站点的交互模拟中，最大的困难之一就是服务器使用 cookies 跟踪会话进度。显然，cookies 是 HTTP 头部的一部分，在urllib打开资源时会自然显阅读全文

posted @ 2013-05-10 14:18 Léon 阅读(505) 评论(0) 推荐(0)

使用Spynner基于Webkit从最底层模拟浏览器行为

摘要： WebKit是开源的Web浏览器引擎，苹果的Safari、谷歌的Chrome浏览器都是基于这个框架来开发的。WebKit 还支持移动设备和手机，包括iPhone和Android手机都是使用WebKit做为浏览器的核心。了解更多>>>由于是直接使用浏览器引擎，所以能够访问和修改浏览器的各项底层属性，能够与其进行深度的交互。例如，可以进行代理设置、HTTP头读取和修改、Cookie读取和设置、缓存控制、URL过滤。另外，Webkit方案还能够跨平台使用。Qt库是一个跨平台C++图形用户界面应用程序开发框架，QtWebKit是Webkit在Qt库中的封装。PyQt4是Qt库的Pyt 阅读全文

posted @ 2013-05-10 11:49 Léon 阅读(4264) 评论(2) 推荐(0)

Léon

公告