12 2019 档案
摘要:1 import requests 2 3 4 def test(): 5 # 1,目标url 6 # url = "https://www.baidu.com/" #地址栏中输入的都是 GET 请求 7 8 url = "https://www.baidu.com/" 9 10 # 2,发送请求 
        阅读全文
            
摘要:关于数据: 分为结构化数据和非结构化数据: XML 和 HTML 的区别: 前者是用来传输数据的,后者是用来展示数据的。 因为HTML中有单标签,所以不是结构化的数据,而XML则都是单标签,是结构化的数据。 json模块 的使用: 1 import json 2 3 # python 的字典 > j
        阅读全文
            
摘要:1 import pandas as pd 2 3 def test(): 4 my_data = { 5 "ID":[1,2,3], 6 "Name":["tom","egon","alex"] 7 } 8 data_frame = pd.DataFrame(my_data) 9 my_excel
        阅读全文
            
摘要:多线程: 1 import requests 2 import random 3 import json 4 from lxml import etree 5 import time 6 7 #用户代理池 8 USER_AGENT_LISTS = [] 9 with open("zcb/USER_A
        阅读全文
            
摘要:进程 进程的 两关系一特点 : ''' 1,关系 : a, 父进程 和 子进程: 父进程只是通知操作系统开启,子进程,然后继续执行自己的进程!(异步) b, 子进程 和 子进程: 子进程 与 子进程之间 是数据隔离的。 2,特点: 父进程 执行完自己的代码后,会等所有子进程执行完之后,才会结束父进程
        阅读全文
            
摘要:互斥(acquire后 必须release )锁 和 递归锁: 为什么线程中还需要有锁: 我们知道cpython解释器 有一个GIL 锁,同一时刻,只会有一个线程可以被cpu调度。 主要还是因为取到数据 到 处理完之后 存回去 是花费的时间太长了。 线程中的数据不安全现象: 1 from threa
        阅读全文
            
摘要:今日内容: js 解密,selenium 进行 iframe 切换 selenium 执行js代码给 selenium 添加 ua 添加代理ip selenium 处理 cookie selenium 案例 斗鱼 (用selenium 进行翻页 ) js2py 的简单使用: 1 import js2
        阅读全文
            
摘要:一,jQuery操作样式: 我们平时操作样式的时候,可以直接修改单个样式,也可以先定义好一个class ,然后,直接修改 对象! 1,css操作: a,设置样式: 功能:设置或者修改样式;操作的是style属性。 操作单个样式, css (name,value) 两个参数,name 是样式名, va
        阅读全文
            
摘要:上面 的模块 ,对应就是一个文件。 四个模块都是和 引擎做交互,由引擎来决定 将相应的数据传给谁!!! 里面的多线程 ,高并发都是 交给调度器来实现的!!! 实际开发中 和程序员有关系的就只有 spider (1,start_url 2,解析数据 ) 和 管道 (保存数据) pass
        阅读全文
            
摘要:1 import json 2 ''' 3 打开网页,直接保存网页proxy_list.txt ,然后用工具将其处理为 json 文件! 4 ''' 5 with open("proxy_list.json","r",encoding="utf8") as f: 6 data_lists = jso
        阅读全文
            
摘要:xpath <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>xpath的基本语法</title> </head> <body> <script> /* * xpath 基本语法: * 1, 根节点 : / e
        阅读全文
            
摘要:HTTPwiki介绍: 超文本传输协议 HyperText Transfer Protocol 设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。通过HTTP或者HTTPS协议请求的资源由统一资源标识符(Uniform Resource Identifiers,URI)来标识。 HT
        阅读全文
            
摘要:爬虫阶段的计划: 爬虫的项目:一个网站就是一个项目,爬网站就是项目。 解析数据里:重点掌握 xpath,!
        阅读全文
            
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号