随笔分类 -  爬虫

摘要:#在items模块中有下面三个参数: import scrapy class TextItem(spider.Item): title = scrapy.Field() price = scrapy.Field() image = scrapy.Field() #在spider爬虫中: class TaobaoSpider(scrapy.Spider): name... 阅读全文
posted @ 2018-11-03 11:12 3532 阅读(1137) 评论(0) 推荐(0)
摘要:学了re,xpath,beautifuisoup,再接着学PyQuery时总觉得,一些语句自己已经看过很多遍了,我们从一个简单的例子入手。 有用的信息就是, 节点操作 addClass 和 removeClass, addClass()和removeClass()这些方法可以动态改变节点的class 阅读全文
posted @ 2018-09-11 16:05 3532 阅读(1057) 评论(0) 推荐(0)
摘要:from lxml import etree # test1text=''' <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html"> 阅读全文
posted @ 2018-09-10 11:08 3532 阅读(703) 评论(0) 推荐(0)
摘要:结果呢,什么也无法匹配。因为内容中有换行。先 he,然后 llo空格 小括号匹配1234657 但是 .*? 没办法匹配,因为 . 不匹配换行 解决办法: 这里只需加一个修饰符 re.S,即可修正这 个错误 因为re.s是忽略换行对.的影响 常用的还有 re.I 忽略大小写对匹配的影响 阅读全文
posted @ 2018-09-09 23:28 3532 阅读(110) 评论(0) 推荐(0)
摘要:我们利用领款断言,是要去匹配一个特定的位置的,并不难以理解。 (?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。 比如\b(?=re)\w+\b,匹配以re开头的单词,如查找reading a book.时,它会匹配reading ((?=\d)\d{3})+\b 阅读全文
posted @ 2018-09-09 14:27 3532 阅读(143) 评论(0) 推荐(0)
摘要:Python Cookie 读取和保存 )利用cookie模拟网站登录 下面我们以我们学校的教育系统为例,利用cookie实现模拟登录,并将cookie信息保存到文本文件中,来感受一下cookie大法吧! 以上程序的原理如下 创建一个带有cookie的opener,在访问登录的URL时,将登录后的c 阅读全文
posted @ 2018-09-07 16:55 3532 阅读(101) 评论(0) 推荐(0)
摘要:在做爬虫的时候,免不了要使用代理,如果要添加代理,可以这样做: 这里我们在本地搭建了一个代理,它运行在 9743 端口上。 这里使用了 ProxyHandler,其参数是一个字典,键名是协议类型(比如 HTTP 或者 HTTPS 等), 键值是代理链接,可以添加多个代理。然后,利用这个 Handle 阅读全文
posted @ 2018-09-07 15:27 3532 阅读(166) 评论(0) 推荐(0)
摘要:Server.UrlDecode();Server.UrlEncode();是两个成对的方法作用是在URL传参时如果直接传中文可能会出问题(对中文参数支持部完善),所以先用 Server.UrlEncode("中文参数"); 得到一个解码后的url内容。 到另外一个页面接受的时候,再用 Server 阅读全文
posted @ 2018-09-02 16:57 3532 阅读(127) 评论(0) 推荐(0)
摘要:从 selenimum 导入 webdriver, temp = webdriver.Chrome # 立马跳出来一个空白chrome浏览器,temp是一个针对chrome浏览器的 爬虫 (刚刚学,我不知道称呼它是否正确), temp.get('http://www.zhihu.com') # 网页 阅读全文
posted @ 2018-08-07 19:24 3532 阅读(91) 评论(0) 推荐(0)