06 2019 档案
摘要:MongDB:非关系型数据库(强大、灵活且易于扩展的通用型) 非关系型:也需要建库,也需要建表(但是不叫表,叫做集合,不一定是一一对应关系的) 两表要建立关系,不需要外键,而是用存档解决。 1、易用性 MongoDB是一个面向文档(document-oriented)的数据库,而不是关系型数据库。
阅读全文
摘要:一 什么是BeautifulSoup 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数
阅读全文
posted @ 2019-06-20 09:16
evan0925
摘要:"""破解极验滑动验证目标URL:https://www.cnblogs.com/"""# 1.输入用户名和密码,并点击登录# 2.弹出滑动验证(一张图片),并获取有缺口和完整的图片# (1).找到小方块的位置,找到需要填充的位置# (2).获取两者之间的距离# 3.通过像素点进行比对,获取滑动像素
阅读全文
posted @ 2019-06-18 16:24
evan0925
摘要:爬取京东商品信息: 请求url: https://www.jd.com/ 提取商品信息: 1.商品详情页 2.商品名称 3.商品价格 4.评价人数 5.商品商家'''from selenium import webdriverfrom selenium.webdriver.common.keys i
阅读全文
摘要:注意:selenium每次驱动的浏览器都是一个干净的,新的浏览器 1.简单的图片滑动 2.标签的前进后退
阅读全文
摘要:Xpath语法 //body/. 表示从body当前位置查找 2. 元素交互操作 3.添加cookie 4.选项卡的操作
阅读全文
摘要:相关资料 https://www.cnblogs.com/kermitjam/p/10863922.html#test33 1、selenium是什么? selenium最初是一个自动化测试工具,(而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。) 可以使用它来帮
阅读全文
摘要:1.初步接触post 1.requests的POST请求 说明: ''' post请求登录github Request URL: https://github.com/session Request Method: POST #Referer表示上一个请求的页面 Referer: https://g
阅读全文
摘要:阅读目录 一 介绍 二 基于GET请求 三 基于POST请求 四 响应Response 五 高级用法 六 课后作业 一 介绍 Python内置为我们提供了一个内置的模块叫urllib,是用于访问网络资源的,但是由于它内部缺少一些实用的功能,所以用起来比较麻烦。后来出现了一个第三方模块叫 "Reque
阅读全文
posted @ 2019-06-14 14:39
evan0925
摘要:阅读目录 一 爬虫是什么 二 爬虫的基本流程 三 请求与响应 四 Request 五 Response 六 总结 一 爬虫介绍 近年来,随着网络应用逐渐扩展与深入,如何高效地获取网上数据成为了无数公司和个人的追求,在如今这大数据时代里,谁能掌握更多的数据,谁就可以获取更高的利益,而网络爬虫其中最为常
阅读全文
posted @ 2019-06-14 14:32
evan0925
摘要:程序改进如下::: 执行代码如下: 数据传递过程,如下几图:
阅读全文
摘要:回顾: 1.爬虫:爬取数据 2.互联网:由一堆网络设备一台台的计算机互联到一起 3、互联网建立的目的:数据的传递和数据共享 4.上网的全过程: 普通用户: 打开浏览器-》往目标站点(服务器)发送请求-》接受响应数据-》渲染到页面上 爬虫程序: 模拟浏览器-》往目标站点(服务器)发送请求-》接受响应数
阅读全文
摘要:1.下载谷歌浏览器 2.在谷歌浏览器内打开百度 3.打开百度的开发者工具:ctrl+shift+I 4. 5.关注内容解释: 6. requests模块的使用 7.网上爬取视频: 说明:获取视频源的办法:用谷歌浏览器打开梨视频,然后打开开发者模式,然后点开element ,然后选择相应的视频,然后点
阅读全文
摘要:二 爬虫的基本流程 爬虫的基本流程其实就是模拟浏览器往目标站点发送请求,那浏览器发送的是http协议数据格式的请求,http协议的底层其实就是TCP协议数据格式。其实浏览器是一个套接字客户端,访问的目标站点是一个套接字服务端。那套接字客户端要与套接字服务端建立链接,得先拿到 ”客户端的ip和端口“
阅读全文
摘要:1、json模块 json 模块使用图解: 如上,会报错,因为user_info为字典类型,而open要求写入的是字符串。 修改如下: 反序列化如下: dump__自带写功能,自动触发.white()功能 如上,修改: load 也自带读功能,简化代码如下: 2.time 模块 3.os 模块 4.
阅读全文
摘要:1、import 模块名 》 新建文件夹如B, 该文件夹可以被看做是模块 故:可以 import B 但是 2、from B import a #用于导入 a.py文件 他们之间的关系
阅读全文
摘要:一 什么是名称空间? 二名称空间的加载顺序 运行调用过程如上图
阅读全文
摘要:如上程序,利用该特性,优雅的取代多分支的if,作用:减少了数据的冗余, 说明: 函数是第一类对象,即函数可以当作数据传递 函数嵌套: 嵌套定义: 在函数内,定义函数 嵌套定义的函数调用: 1、通过函数内部的返回值调用 2.嵌套定义的同时,将调用写在定义的内部 https://www.cnblogs.
阅读全文
摘要:1、import os #用于和操作系统交互 2、解压赋值 username,password=res.split(":") 等价于: 函数定义的三种方式 1、无参函数 不需要接收外部传入的参数 def foo(): print(“from foo”) 2、有参函数 需要接收外部传入的参数 def
阅读全文
摘要:今日内容: 1.函数剩余部分 2.内置模块 3.模块与包 4.爬虫基本原理 5.requersts模块
阅读全文
摘要:函数基础 为什么用函数 (1)结构清晰 (2)代码简洁, 提高可读性 (3)代码复用,提高扩展性 什么是函数 代码的集合,相当于生活中的工具箱,即:在程序中,函数就是具备某一功能的工具,事先将工具准备好就是函数的定义,遇到应用场景拿来就用就是函数的调用 因此,函数要先定义好了,再使用 函数的定义:
阅读全文
摘要:链接地址:https://www.cnblogs.com/kermitjam/p/10810583.html 目录 计算机基础(掌握) 文本编辑器存取文件的原理(熟悉) Python解释器执行py文件的原理(熟悉) Python解释器与文件本编辑的异同(熟悉) 字符编码介绍(熟悉) 什么是字符编码
阅读全文

浙公网安备 33010602011771号