11 2018 档案
摘要:什么是selenium注意:chrome 需要与 chromedriver版本对应才能运行网上有相应的版本支持范围对照表 selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(
阅读全文
摘要:官网地址:http://pyquery.readthedocs.io/en/latest/jQuery参考文档: http://jquery.cuishifeng.cn/ 初始化 初始化的时候一般有三种传入方式:传入字符串,传入url,传入文件 字符串初始化 URL初始化 文件初始化我们在pq()这
阅读全文
摘要:上述为选择器的大体使用方法 基本使用标签选择器 通过这种soup.标签名 我们就可以获得这个标签的内容这里有个问题需要注意,通过这种方式获取标签,如果文档中有多个这样的标签,返回的结果是第一个标签的内容,如上面我们通过soup.p获取p标签,而文档中有多个p标签,但是只返回了第一个p标签内容 获取名
阅读全文
摘要:在爬虫系统中,待抓取URL队列是很重要的一部分,待抓取URL队列中的URL以什么样的顺序排队列也是一个很重要的问题,因为这涉及到先抓取哪个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面是常用的两种策略:深度优先、广度优先 scrapy框架默认的是深度优先算法 深度优先与广度
阅读全文
摘要:总体功能的一个演示 我们可以看出response使用起来确实非常方便,这里有个问题需要注意一下:很多情况下的网站如果直接response.text会出现乱码的问题,所以这个使用response.content这样返回的数据格式其实是二进制格式,然后通过decode()转换为utf-8,这样就解决了通
阅读全文
摘要:第一种请求头的方式 第二种请求头的方式 设置代理通过rulllib.request.ProxyHandler()可以设置代理,网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问,所以这个时候需要通过设置代理来爬取数据 cookie,HTTPCookiProcessor c
阅读全文
摘要:1.同步调用 2.异步调用之回调函数 3.异步调用之携程简单版 4.异步调用之携程提升版 5.异步调用之携程最终版
阅读全文
摘要:1.Queue使用方法: Queue.qsize():返回当前队列包含的消息数量; Queue.empty():如果队列为空,返回True,反之False ; Queue.full():如果队列满了,返回True,反之False; Queue.get():获取队列中的一条消息,然后将其从列队中移除,
阅读全文
摘要:主要是渗透了解 asyncio 相关概念 提及部分描述:1.线程(阻塞,非阻塞) 2.线程之间通信(线程之间的传递(import queue)) 3.进程之间通信(进程之间通信from multiprocessing import Process,Queue 用进程Queue)单独详解) 举例图:
阅读全文
摘要:__xxxitem__:使用 [''] 的方式操作属性时被调用 __setitem__:每当属性被赋值的时候都会调用该方法,因此不能再该方法内赋值 self.name = value 会死循环 __getitem__:当访问不存在的属性时会调用该方法 __delitem__:当删除属性时调用该方法
阅读全文
摘要:download最完善的脚本 三种网页抓取的方法 1.用正则抓取数据 2.bs4抓取 bs4抓取(实验) bs4正式抓取 3.lxml抓取
阅读全文
摘要:查看网站结构 最原始的爬虫 增加递归 用户代理 运用上述的download脚本读不出标签(问题:可能是标签不存在) 对ID进行遍历,直到出错为止 若ID出现中间被删除,就无法连续自动退出, 为了解决这种问题,脚本加入连续判断5次,若都为空,就结束 链接爬虫 python HTTP模块requests
阅读全文
摘要:构建网站 所使用的技术 类型 也会对我们如何爬取产生 影响 。 有 一 个十 分有用的 工具可以 检查网站 构建的技术 类型 builtwith模块该模 块的安装方法如下 。 该模块将URL作 为 参 数 , 下载该 URL并对其进行分析 , 然后返回该网站使用的技术。 下 面 是使用该模块的 一个
阅读全文
摘要:1、安装wheel pip install wheel 2、安装lxml https://pypi.python.org/pypi/lxml/4.1.0 3、安装pyopenssl https://pypi.python.org/pypi/pyOpenSSL/17.5.0 4、安装Twisted https:...
阅读全文
摘要:from bs4 import BeautifulSoup @login_required def add_article(request): """ 后台管理的添加书籍视图函数 :param request: :return: """ if request.method == "POST": title = request.P...
阅读全文
摘要:前端代码 div验证码框的样式 验证码点击刷新事件 验证码生成函数 登录的时候校验验证码(d代码只有片段),通过ajax请求传入request的
阅读全文
摘要:个人视图 钩子讲理(非自己)
阅读全文
摘要:先导入数据库 然后运用create_user进行创建 如果直接使用create创建的是明文密码 如果你的表想用user内的字段 或者很多字段相同 你的表也可以继承auth模块你的models内继承了user表 但是你在models内设置好了后你要取settings内设置一段话告诉django你继承了
阅读全文
摘要:get(默认值)是通过URL传递表单值,数据追加在action属性后面。 post传递的表单值是隐藏到http报文体中,url中看不到。 get是通过url传递表单值,post通过url看不到表单域的值; get传递的数据量是有限的,如果要传递大数据量不能用get,比如type=“file”上传文章
阅读全文
摘要:1.csrf的适用条件 每次初始化一个项目时都能看到 django.middleware.csrf.CsrfViewMiddleware 这个中间件 每次在模板里写 form 时都知道要加一个 {% csrf_token %} tag 每次发 ajax POST 请求,都需要加一个 X_CSRFTO
阅读全文
摘要:1.注册视图 一般注册是通过form表单形式post提交数据,数据一般通过class字段过滤值看clean_data来获取的 过滤字段类(放在view视图里) 通过注册的post按钮进行相应的ajax请求从而clean_data,显示错误或者是重复的字段 2.登录视图 form表单形式,判断页面的请
阅读全文
摘要:系统纯净 首先在不损坏原生Python2.7的情况下安装python3.6 centos7安装pip 1.执行:yum install python-pip 若没有python-pip包,先执行:yum -y install epel-release,再执行yum install python-pi
阅读全文
摘要:
阅读全文
摘要:1.常用跨类方法 注意__init__方法其实是创建一个空对象然后再进行赋值 2.抽象类 :必须要继承abc的抽象方法,以abc装饰器来判断是否是抽象类,子类重写父类的接口方法(子类必须重写父类中的抽象方法,否则子类也是一个抽象类) 3.@property方法 :property是一种特殊的属性,访
阅读全文
摘要:python3 常用线程 主线程一直运行,遇到循环耗时操作分出子线程,主线程运行到最后等待子线程结束,再进行关闭 python2.7 thread方法 主线程运行到最后就结束,相当于python3中设置了守护进行,如上注释部分所示
阅读全文
摘要:-r 递归的 sambal 服务 sudo apt-get install samba sudo vi /etc/samba/smb.conf : 修改samba配置文件 sudo /etc/init.d/samba restart : 重启服务 nfs 服务: sudo apt-get insta
阅读全文
摘要:echo "hello world" 打印出来 第一行为bash在bin里的pwd vi test.sh ./test.sh 运行shell
阅读全文
摘要:if config 配置网卡 ifconfig :显示所有网卡信息 ifconfig eth0 : 查看网卡eth0的信息 ifconfig eth0 down :禁用eth0 if config eth0 up : 激活eth0 if config eth0 192.168.1.101 : 配置网
阅读全文
摘要:linux添加用户: sudo adduser test : 添加用户,home下创建test目录,test目录有基本配置脚本 sudo useradd test1:添加用户,不会创建目录,不能登录 sudo useradd -m test1: 添加用户,创建目录, 不能登录 sudo passwd
阅读全文

浙公网安备 33010602011771号