11 2018 档案

摘要:什么是selenium注意:chrome 需要与 chromedriver版本对应才能运行网上有相应的版本支持范围对照表 selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理( 阅读全文
posted @ 2018-11-30 16:50 Corey0606 阅读(289) 评论(0) 推荐(0)
摘要:官网地址:http://pyquery.readthedocs.io/en/latest/jQuery参考文档: http://jquery.cuishifeng.cn/ 初始化 初始化的时候一般有三种传入方式:传入字符串,传入url,传入文件 字符串初始化 URL初始化 文件初始化我们在pq()这 阅读全文
posted @ 2018-11-30 16:35 Corey0606 阅读(355) 评论(0) 推荐(0)
摘要:上述为选择器的大体使用方法 基本使用标签选择器 通过这种soup.标签名 我们就可以获得这个标签的内容这里有个问题需要注意,通过这种方式获取标签,如果文档中有多个这样的标签,返回的结果是第一个标签的内容,如上面我们通过soup.p获取p标签,而文档中有多个p标签,但是只返回了第一个p标签内容 获取名 阅读全文
posted @ 2018-11-30 16:16 Corey0606 阅读(209) 评论(0) 推荐(0)
摘要:在爬虫系统中,待抓取URL队列是很重要的一部分,待抓取URL队列中的URL以什么样的顺序排队列也是一个很重要的问题,因为这涉及到先抓取哪个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面是常用的两种策略:深度优先、广度优先 scrapy框架默认的是深度优先算法 深度优先与广度 阅读全文
posted @ 2018-11-29 10:39 Corey0606 阅读(369) 评论(0) 推荐(0)
摘要:总体功能的一个演示 我们可以看出response使用起来确实非常方便,这里有个问题需要注意一下:很多情况下的网站如果直接response.text会出现乱码的问题,所以这个使用response.content这样返回的数据格式其实是二进制格式,然后通过decode()转换为utf-8,这样就解决了通 阅读全文
posted @ 2018-11-28 16:41 Corey0606 阅读(2978) 评论(0) 推荐(0)
摘要:第一种请求头的方式 第二种请求头的方式 设置代理通过rulllib.request.ProxyHandler()可以设置代理,网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问,所以这个时候需要通过设置代理来爬取数据 cookie,HTTPCookiProcessor c 阅读全文
posted @ 2018-11-27 13:53 Corey0606 阅读(412) 评论(0) 推荐(0)
摘要:1.同步调用 2.异步调用之回调函数 3.异步调用之携程简单版 4.异步调用之携程提升版 5.异步调用之携程最终版 阅读全文
posted @ 2018-11-26 10:44 Corey0606 阅读(195) 评论(0) 推荐(0)
摘要:1.Queue使用方法: Queue.qsize():返回当前队列包含的消息数量; Queue.empty():如果队列为空,返回True,反之False ; Queue.full():如果队列满了,返回True,反之False; Queue.get():获取队列中的一条消息,然后将其从列队中移除, 阅读全文
posted @ 2018-11-26 10:06 Corey0606 阅读(460) 评论(0) 推荐(0)
摘要:主要是渗透了解 asyncio 相关概念 提及部分描述:1.线程(阻塞,非阻塞) 2.线程之间通信(线程之间的传递(import queue)) 3.进程之间通信(进程之间通信from multiprocessing import Process,Queue 用进程Queue)单独详解) 举例图: 阅读全文
posted @ 2018-11-26 10:00 Corey0606 阅读(230) 评论(0) 推荐(0)
摘要:__xxxitem__:使用 [''] 的方式操作属性时被调用 __setitem__:每当属性被赋值的时候都会调用该方法,因此不能再该方法内赋值 self.name = value 会死循环 __getitem__:当访问不存在的属性时会调用该方法 __delitem__:当删除属性时调用该方法 阅读全文
posted @ 2018-11-23 17:28 Corey0606 阅读(873) 评论(0) 推荐(0)
摘要:download最完善的脚本 三种网页抓取的方法 1.用正则抓取数据 2.bs4抓取 bs4抓取(实验) bs4正式抓取 3.lxml抓取 阅读全文
posted @ 2018-11-22 14:00 Corey0606 阅读(277) 评论(0) 推荐(0)
摘要:查看网站结构 最原始的爬虫 增加递归 用户代理 运用上述的download脚本读不出标签(问题:可能是标签不存在) 对ID进行遍历,直到出错为止 若ID出现中间被删除,就无法连续自动退出, 为了解决这种问题,脚本加入连续判断5次,若都为空,就结束 链接爬虫 python HTTP模块requests 阅读全文
posted @ 2018-11-22 13:52 Corey0606 阅读(583) 评论(0) 推荐(0)
摘要:构建网站 所使用的技术 类型 也会对我们如何爬取产生 影响 。 有 一 个十 分有用的 工具可以 检查网站 构建的技术 类型 builtwith模块该模 块的安装方法如下 。 该模块将URL作 为 参 数 , 下载该 URL并对其进行分析 , 然后返回该网站使用的技术。 下 面 是使用该模块的 一个 阅读全文
posted @ 2018-11-21 09:40 Corey0606 阅读(383) 评论(0) 推荐(0)
摘要:1、安装wheel pip install wheel 2、安装lxml https://pypi.python.org/pypi/lxml/4.1.0 3、安装pyopenssl https://pypi.python.org/pypi/pyOpenSSL/17.5.0 4、安装Twisted https:... 阅读全文
posted @ 2018-11-20 10:02 Corey0606 阅读(183) 评论(0) 推荐(0)
摘要:from bs4 import BeautifulSoup @login_required def add_article(request): """ 后台管理的添加书籍视图函数 :param request: :return: """ if request.method == "POST": title = request.P... 阅读全文
posted @ 2018-11-16 13:48 Corey0606 阅读(569) 评论(2) 推荐(1)
摘要:前端代码 div验证码框的样式 验证码点击刷新事件 验证码生成函数 登录的时候校验验证码(d代码只有片段),通过ajax请求传入request的 阅读全文
posted @ 2018-11-16 12:05 Corey0606 阅读(165) 评论(0) 推荐(0)
摘要:个人视图 钩子讲理(非自己) 阅读全文
posted @ 2018-11-16 11:16 Corey0606 阅读(790) 评论(0) 推荐(0)
摘要:先导入数据库 然后运用create_user进行创建 如果直接使用create创建的是明文密码 如果你的表想用user内的字段 或者很多字段相同 你的表也可以继承auth模块你的models内继承了user表 但是你在models内设置好了后你要取settings内设置一段话告诉django你继承了 阅读全文
posted @ 2018-11-16 10:55 Corey0606 阅读(332) 评论(0) 推荐(0)
摘要:get(默认值)是通过URL传递表单值,数据追加在action属性后面。 post传递的表单值是隐藏到http报文体中,url中看不到。 get是通过url传递表单值,post通过url看不到表单域的值; get传递的数据量是有限的,如果要传递大数据量不能用get,比如type=“file”上传文章 阅读全文
posted @ 2018-11-16 10:27 Corey0606 阅读(158) 评论(0) 推荐(0)
摘要:1.csrf的适用条件 每次初始化一个项目时都能看到 django.middleware.csrf.CsrfViewMiddleware 这个中间件 每次在模板里写 form 时都知道要加一个 {% csrf_token %} tag 每次发 ajax POST 请求,都需要加一个 X_CSRFTO 阅读全文
posted @ 2018-11-16 10:02 Corey0606 阅读(178) 评论(0) 推荐(0)
摘要:1.注册视图 一般注册是通过form表单形式post提交数据,数据一般通过class字段过滤值看clean_data来获取的 过滤字段类(放在view视图里) 通过注册的post按钮进行相应的ajax请求从而clean_data,显示错误或者是重复的字段 2.登录视图 form表单形式,判断页面的请 阅读全文
posted @ 2018-11-15 17:49 Corey0606 阅读(577) 评论(0) 推荐(0)
摘要:系统纯净 首先在不损坏原生Python2.7的情况下安装python3.6 centos7安装pip 1.执行:yum install python-pip 若没有python-pip包,先执行:yum -y install epel-release,再执行yum install python-pi 阅读全文
posted @ 2018-11-15 16:57 Corey0606 阅读(454) 评论(0) 推荐(0)
摘要:1.常用跨类方法 注意__init__方法其实是创建一个空对象然后再进行赋值 2.抽象类 :必须要继承abc的抽象方法,以abc装饰器来判断是否是抽象类,子类重写父类的接口方法(子类必须重写父类中的抽象方法,否则子类也是一个抽象类) 3.@property方法 :property是一种特殊的属性,访 阅读全文
posted @ 2018-11-12 14:43 Corey0606 阅读(214) 评论(0) 推荐(0)
摘要:python3 常用线程 主线程一直运行,遇到循环耗时操作分出子线程,主线程运行到最后等待子线程结束,再进行关闭 python2.7 thread方法 主线程运行到最后就结束,相当于python3中设置了守护进行,如上注释部分所示 阅读全文
posted @ 2018-11-08 17:41 Corey0606 阅读(1130) 评论(0) 推荐(0)
摘要:-r 递归的 sambal 服务 sudo apt-get install samba sudo vi /etc/samba/smb.conf : 修改samba配置文件 sudo /etc/init.d/samba restart : 重启服务 nfs 服务: sudo apt-get insta 阅读全文
posted @ 2018-11-06 14:32 Corey0606 阅读(214) 评论(0) 推荐(0)
摘要:echo "hello world" 打印出来 第一行为bash在bin里的pwd vi test.sh ./test.sh 运行shell 阅读全文
posted @ 2018-11-06 14:23 Corey0606 阅读(123) 评论(0) 推荐(0)
摘要:if config 配置网卡 ifconfig :显示所有网卡信息 ifconfig eth0 : 查看网卡eth0的信息 ifconfig eth0 down :禁用eth0 if config eth0 up : 激活eth0 if config eth0 192.168.1.101 : 配置网 阅读全文
posted @ 2018-11-06 14:03 Corey0606 阅读(4049) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-11-06 09:34 Corey0606 阅读(104) 评论(0) 推荐(0)
摘要:linux添加用户: sudo adduser test : 添加用户,home下创建test目录,test目录有基本配置脚本 sudo useradd test1:添加用户,不会创建目录,不能登录 sudo useradd -m test1: 添加用户,创建目录, 不能登录 sudo passwd 阅读全文
posted @ 2018-11-02 10:12 Corey0606 阅读(347) 评论(0) 推荐(0)