爬虫、浏览器模拟操作

缘起

身边近千台机器,改密码也是件很费劲的事情,后来自己写了自动化程序可以批量
修改程序,奈何被人禁用了权限password,强制要通过某个厂家的web前端浏览器来操作
,可惜这个厂家做的并不好,每次修改密码都是我的痛点,每次只能改一部分,改了密码等
半天才能同步,同步了对结果还不能检索,过滤除失败的记录在重新修改。好吧这是一个及其悲伤的故事
,所以我一直在寻址能够自动操作的方法。

已经关注过的概念

可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据

http://www.ibm.com/developerworks/cn/linux/l-python-mechanize-beautiful-soup/index.html

splinter

splinter + phantomjs

elenium+ phantomjs

CasperJS

requests

urllib2

pyspider

pyspider是一个爬虫框架,与sqlalchemy结合,可以将数据轻松的存放到第三方平台

scrapy

爬虫

简单的看爬虫就是访问url,但是当遇到复杂的js加载页面还需要我们分析页面源码。有针对性的爬虫
需要动html,分析web表单结构。如果爬取的页面非常多还需要我们了解分布式爬虫的开发。
一段code
`
from splinter import Browser
b =Browser()#(driver_name='phantomjs')

driver_name="chrome")

Browser('phantomjs')

b.visit("4A of address")#http://www.baidu.com")
b.fill("login_name","luominggang")
b.fill("ptpassword","BOmc1234567!")
button = b.find_by_id("getMes")
button.click()
b.fill("checksms",smscode)

print(b.is_text_present("splinter.cobrateam.info")) #判断字符串是否存在

sleep(10)
b.quit()
`

posted @ 2015-12-11 00:51  轮子手  阅读(497)  评论(0)    收藏  举报