08 2018 档案

摘要:当很多内容需要构造成字典可以使用re的方式构造: 首先选中内容: 然后ctrl +F查找,ctrl +R 替换 注意后面的逗号必须有 阅读全文
posted @ 2018-08-27 10:28 莫失莫忘csbh 阅读(297) 评论(0) 推荐(0)
摘要:#表示的是取html中的id元素, . 表示的是取html中的class元素。 如果是标签,就直接用标签名 而它们之间的空格,则表示嵌套关系 单冒号(:)用于CSS3伪类,双冒号(::)用于CSS3伪元素。 阅读全文
posted @ 2018-08-23 14:36 莫失莫忘csbh 阅读(138) 评论(0) 推荐(0)
摘要:首先装pymongo,pyspider,具体安装方法不讲解,然后 命令行下执行 pyspider all pyspider all 这句命令的意思是,运行 pyspider 并 启动它的所有组件。 可以发现程序已经正常启动,并在 5000 这个端口运行。 下来在浏览器中输入 http://local 阅读全文
posted @ 2018-08-23 11:28 莫失莫忘csbh 阅读(617) 评论(0) 推荐(0)
摘要:在用 PySpider 爬取 https 开头的网站的时候遇到了 HTTP 599: SSL certificate problem: self signed certificate in certificate chain 的错误。 经过一番排查,解决方案总结如下 错误原因 这个错误会发生在请求 阅读全文
posted @ 2018-08-23 09:24 莫失莫忘csbh 阅读(1556) 评论(0) 推荐(0)
摘要:点击小灯泡提示出现以下内容:This inspection detects names that should resolve but don't. Due to dynamic dispatch and duck typing, this is possible in a limited but 阅读全文
posted @ 2018-08-21 10:48 莫失莫忘csbh 阅读(4473) 评论(0) 推荐(1)
摘要:# !/usr/bin/env python# -*- coding:utf-8 -*-from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.u 阅读全文
posted @ 2018-08-18 17:40 莫失莫忘csbh 阅读(356) 评论(0) 推荐(0)
摘要:1:首先确定要爬取的网站:爬取的url链接规律,请求方式时post还是get, 2:然后简单书写爬虫进行网页测试: 3:测试通过后,增加网页循环对爬取内容进行处理,然后方法一保存为txt格式,方法二保存为csv格式: 使用进程池抓取: 阅读全文
posted @ 2018-08-15 11:39 莫失莫忘csbh 阅读(736) 评论(0) 推荐(0)
摘要:转自https://cn.aliyun.com/jiaocheng/474747.html 阅读全文
posted @ 2018-08-14 11:16 莫失莫忘csbh 阅读(119) 评论(0) 推荐(0)
摘要:-· 请求方法: 名词: HTML: 长沙市: CSS: DOM: JSON: AJAX: 爬虫方法: 1:获取网页 2:提取信息 3:保存数据 静态网页: 登陆时框,爬虫登陆代码: 文件上传: 其中favicon.ioc相当于一个文件: 登陆认证: seach()——在匹配时扫描字符串,然后返回第 阅读全文
posted @ 2018-08-09 17:45 莫失莫忘csbh 阅读(188) 评论(0) 推荐(0)
摘要:作者:乌尔班链接:https://www.zhihu.com/question/54773510/answer/146971644来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 Request中meta参数的作用是传递信息给下一个函数,使用过程可以理解成: 把需要传递 阅读全文
posted @ 2018-08-02 14:52 莫失莫忘csbh 阅读(625) 评论(0) 推荐(0)