2017年7月9日

css用法(持续更新ing)

摘要: *:选择所有节点 #container:选取id为container的节点 .container:选取所有class包含container的节点 li a:选取li下的所有a节点 ul +p:选取ul后面的第一个p元素 div#container>ul:选取id为container的div的第一个u 阅读全文

posted @ 2017-07-09 15:12 木木&侃侃 阅读(115) 评论(0) 推荐(0) 编辑

xpath用法(持续更新ing)

摘要: article:选取所有article元素的所有子节点 /article:选取根元素article article/a:选取所有属于article的子元素的a元素 //div:选取所有div元素 article //div:选取所有属于article元素的后代div元素,不管它出现在article元 阅读全文

posted @ 2017-07-09 13:38 木木&侃侃 阅读(120) 评论(0) 推荐(0) 编辑

2017年6月29日

scrapy shell 用法(慢慢更新...)

摘要: scrapy shell 命令 1.scrapy shell url #url指你所需要爬的网址 2.有些网址数据的爬取需要user-agent,scrapy shell中可以直接添加头文件, 第①种方法 scrapy shell -s USER_AGENT="Mozilla/5.0 (Window 阅读全文

posted @ 2017-06-29 23:29 木木&侃侃 阅读(354) 评论(0) 推荐(1) 编辑

2017年6月23日

scrapy模拟知乎登录(无验证码机制)

摘要: 恢复内容开始 spiders 文件夹下新建zhihu.py文件(从dos窗口中进入虚拟环境,再进入工程目录之后输入命令 scrapy genspider zhihu www.zhihu.com) #zhihu.py import scrapy import re import json from I 阅读全文

posted @ 2017-06-23 18:07 木木&侃侃 阅读(323) 评论(0) 推荐(0) 编辑

2017年6月22日

request模拟知乎登录(无验证码机制)

摘要: import request try: import cookielib #python2版本 except: import http.cookiejar as cookielib #python3版本 import re session=request.session() session.cook 阅读全文

posted @ 2017-06-22 09:16 木木&侃侃 阅读(665) 评论(0) 推荐(0) 编辑

导航