爬虫 - 随笔分类 - 3532

scrapy中 Request方法中的meta参数是什么？干什么用的？

摘要：#在items模块中有下面三个参数： import scrapy class TextItem(spider.Item): title = scrapy.Field() price = scrapy.Field() image = scrapy.Field() #在spider爬虫中： class TaobaoSpider(scrapy.Spider): name... 阅读全文

posted @ 2018-11-03 11:12 3532 阅读(1137) 评论(0) 推荐(0)

PyQuery选择器

摘要：学了re,xpath,beautifuisoup,再接着学PyQuery时总觉得，一些语句自己已经看过很多遍了，我们从一个简单的例子入手。有用的信息就是，节点操作 addClass 和 removeClass, addClass()和removeClass()这些方法可以动态改变节点的class 阅读全文

posted @ 2018-09-11 16:05 3532 阅读(1057) 评论(0) 推荐(0)

xpath定向爬取

摘要：from lxml import etree # test1text=''' <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html"> 阅读全文

posted @ 2018-09-10 11:08 3532 阅读(703) 评论(0) 推荐(0)

正则表达式的零散知识

摘要：结果呢，什么也无法匹配。因为内容中有换行。先 he，然后 llo空格小括号匹配1234657 但是 .*? 没办法匹配，因为 . 不匹配换行解决办法: 这里只需加一个修饰符 re.S，即可修正这个错误因为re.s是忽略换行对.的影响常用的还有 re.I 忽略大小写对匹配的影响阅读全文

posted @ 2018-09-09 23:28 3532 阅读(110) 评论(0) 推荐(0)

正则表达式中的零宽断言

摘要：我们利用领款断言，是要去匹配一个特定的位置的，并不难以理解。 (?=exp)也叫零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式exp。比如\b(?=re)\w+\b，匹配以re开头的单词，如查找reading a book.时，它会匹配reading ((?=\d)\d{3})+\b 阅读全文

posted @ 2018-09-09 14:27 3532 阅读(143) 评论(0) 推荐(0)

Cookies

摘要：Python Cookie 读取和保存）利用cookie模拟网站登录下面我们以我们学校的教育系统为例，利用cookie实现模拟登录，并将cookie信息保存到文本文件中，来感受一下cookie大法吧！以上程序的原理如下创建一个带有cookie的opener，在访问登录的URL时，将登录后的c 阅读全文

posted @ 2018-09-07 16:55 3532 阅读(101) 评论(0) 推荐(0)

爬虫代理

摘要：在做爬虫的时候，免不了要使用代理，如果要添加代理，可以这样做：这里我们在本地搭建了一个代理，它运行在 9743 端口上。这里使用了 ProxyHandler，其参数是一个字典，键名是协议类型（比如 HTTP 或者 HTTPS 等），键值是代理链接，可以添加多个代理。然后，利用这个 Handle 阅读全文

posted @ 2018-09-07 15:27 3532 阅读(166) 评论(0) 推荐(0)

Encode 和 Decode

摘要：Server.UrlDecode();Server.UrlEncode();是两个成对的方法作用是在URL传参时如果直接传中文可能会出问题（对中文参数支持部完善），所以先用 Server.UrlEncode("中文参数"); 得到一个解码后的url内容。到另外一个页面接受的时候，再用 Server 阅读全文

posted @ 2018-09-02 16:57 3532 阅读(127) 评论(0) 推荐(0)

PhantomJS

摘要：从 selenimum 导入 webdriver， temp = webdriver.Chrome # 立马跳出来一个空白chrome浏览器，temp是一个针对chrome浏览器的爬虫 (刚刚学，我不知道称呼它是否正确), temp.get('http://www.zhihu.com') # 网页阅读全文

posted @ 2018-08-07 19:24 3532 阅读(91) 评论(0) 推荐(0)

还能做好什么

随笔分类 - 爬虫

公告