2020 年 7月 28 日随笔档案 - 一只小白呀

2020年7月28日

摘要： #!/usr/bin/python # -*- coding:utf-8 -*- #post请求（携带了参数） #响应数据是一组json数据 import requests import json if __name__ == '__main__': #指定url post_url = 'https 阅读全文

posted @ 2020-07-28 19:59 一只小白呀阅读(305) 评论(0) 推荐(0)

nmap命令

摘要： nmap 192.168.1.1 nmap -sS -sV -T4 192.186.1.1 -sS:使用TCP SYN扫描 -sV:进行版本检测 -T4:使用的是一种快速扫描的方式，扫描速度的级别范围在（T0-T5）之间，级别越高，扫描速度越快。 nmap -A -T4 192.168.1.1 -A 阅读全文

posted @ 2020-07-28 11:05 一只小白呀阅读(293) 评论(0) 推荐(0)

python面试题

摘要： a = 1 def fun(a): a = 2 fun(a) print(a) #1 a = [] def fun(a): a.append(1) fun(a) print(a) #[1] 所有的变量都可以理解是内存中一个对象的“引用”，或者，也可以看似c中void*的感觉。通过id来看引用a的内阅读全文

posted @ 2020-07-28 09:33 一只小白呀阅读(18) 评论(0) 推荐(0)

selenium模块的基本使用

摘要： selenium模块的基本使用问题：selenium模块和爬虫之间的关联 - 便捷的获取网站中动态加载的数据 - 便捷实现模拟登录什么是selenium模块：基于浏览器自动化的模块 - 环境安装下载安装selenium：pip install selenium 下载浏览器驱动程序： http: 阅读全文

posted @ 2020-07-28 09:30 一只小白呀阅读(272) 评论(0) 推荐(0)

谷歌无头浏览器+反检测

摘要： from selenium import webdriver from time import sleep #实现无可视化界面 from selenium.webdriver.chrome.options import Options #实现规避检测风险 from selenium.webdrive 阅读全文

posted @ 2020-07-28 09:28 一只小白呀阅读(344) 评论(0) 推荐(0)

模拟登录QQ空间

摘要： from selenium import webdriver from time import sleep bro = webdriver.Chrome(executable_path='./chromedriver') bro.get('https://qzone.qq.com/') bro.sw 阅读全文

posted @ 2020-07-28 09:26 一只小白呀阅读(406) 评论(0) 推荐(0)

动作链和iframe的处理

摘要： from selenium import webdriver from time import sleep #导入动作链对应的类 from selenium.webdriver import ActionChains bro = webdriver.Chrome(executable_path='. 阅读全文

posted @ 2020-07-28 09:24 一只小白呀阅读(177) 评论(0) 推荐(0)

selenium其他自动化操作

摘要： from selenium import webdriver from time import sleep bro = webdriver.Chrome(executable_path='./chromedriver') bro.get('https://www.taobao.com/') #标签定阅读全文

posted @ 2020-07-28 09:22 一只小白呀阅读(99) 评论(0) 推荐(0)

selenium基础用法

摘要： from selenium import webdriver from lxml import etree from time import sleep #实例化一个浏览器对象(传入浏览器的驱动程序) bro = webdriver.Chrome(executable_path='./chromed 阅读全文

posted @ 2020-07-28 09:18 一只小白呀阅读(108) 评论(0) 推荐(0)

selenium演示程序

摘要： from selenium import webdriver from time import sleep # 后面是你的浏览器驱动位置，记得前面加r'','r'是防止字符转义的 driver = webdriver.Chrome(r'驱动程序路径') # 用get打开百度页面 driver.get 阅读全文

posted @ 2020-07-28 09:16 一只小白呀阅读(162) 评论(0) 推荐(0)

aiohttp实现多任务异步协程

摘要： #环境安装：pip install aiohttp #使用该模块中的ClientSession import requests import asyncio import time import aiohttp start = time.time() urls = [ 'http://127.0.0 阅读全文

posted @ 2020-07-28 09:13 一只小白呀阅读(303) 评论(0) 推荐(0)

多任务异步协程02

摘要： import requests import asyncio import time start = time.time() urls = [ 'http://127.0.0.1:5000/bobo', 'http://127.0.0.1:5000/jav', 'http://127.0.0.1:5 阅读全文

posted @ 2020-07-28 09:11 一只小白呀阅读(102) 评论(0) 推荐(0)

多任务协程01

摘要： https://ss1.bdstatic.com/70cFvXSh_Q1YnxGkpoWK1HF6hhy/it/u=2075903360,405209795&fm=26&gp=0.jpg 阅读全文

posted @ 2020-07-28 09:08 一只小白呀阅读(80) 评论(0) 推荐(0)

协程

摘要： import asyncio def request(url): print('正在请求的url是',url) print('请求成功',url) return url #async修饰的函数，调用之后返回的一个协程对象 c = request('www.baidu.com') # #创建一个事件循阅读全文

posted @ 2020-07-28 09:06 一只小白呀阅读(104) 评论(0) 推荐(0)

高性能异步爬虫

摘要：高性能异步爬虫目的：在爬虫中使用异步实现高性能的数据爬取操作。异步爬虫的方式： - 多线程、多进程（不建议）： - 好处：可以为相关阻塞的阻塞单独开启线程或者进程，阻塞操作就可以异步执行。 - 弊端：无法无限制的开启多线程或者多进程。 - 线程池、进程池（适当使用）： - 好处：可以降系统对进程阅读全文

posted @ 2020-07-28 09:04 一只小白呀阅读(177) 评论(0) 推荐(0)

线程池在爬虫案例中的应用

摘要： import requests from lxml import etree import re from multiprocessing.dummy import Pool #需求：爬取梨视频的视频数据 headers = { 'User-Agent':'Mozilla/5.0 (Windows 阅读全文

posted @ 2020-07-28 09:01 一只小白呀阅读(189) 评论(0) 推荐(0)

线程池的基本使用

摘要： # import time # #使用单线程串行方式执行 # def get_page(str): # print("正在下载：", str) # time.sleep(2) # print("下载成功：", str) # name_list = ["aa","bb","cc","dd"] # st 阅读全文

posted @ 2020-07-28 08:58 一只小白呀阅读(139) 评论(0) 推荐(0)

requests代理爬取

摘要： import requests import random if __name__ == "__main__": #不同浏览器的UA header_list = [ # 遨游 {"user-agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 阅读全文

posted @ 2020-07-28 08:56 一只小白呀阅读(140) 评论(0) 推荐(0)

python验证码识别

摘要：验证码识别反爬机制：验证码识别验证码图片中的数据用于模拟登录相关之间真的操作识别验证码的操作： - 人工肉眼的识别 - 第三方自动识别 - 云打码模拟登录： - 爬取基于某些基于用户的用户信息. 需求：对人人网进行模拟登录 - 点击登录按钮之后会发起一个post请求 - post请求中会携带阅读全文

posted @ 2020-07-28 08:54 一只小白呀阅读(264) 评论(0) 推荐(0)

获取人人网当前用户的个人详情页数据

摘要： #编码流程： #1.验证码的识别，获取验证码图片的文字数据 #2.对post请求进行发送（处理请求函数） #3.对响应函数进行持久化存储 import requests from lxml import etree from CodeClass import YDMHttp #创建一个session 阅读全文

posted @ 2020-07-28 08:53 一只小白呀阅读(335) 评论(0) 推荐(0)

模拟登录人人网

摘要： #编码流程： #1.验证码的识别，获取验证码图片的文字数据 #2.对post请求进行发送（处理请求函数） #3.对响应函数进行持久化存储 import requests from lxml import etree from CodeClass import YDMHttp #1.对验证码图片进行捕阅读全文

posted @ 2020-07-28 08:51 一只小白呀阅读(329) 评论(0) 推荐(0)

古诗文网验证码识别

摘要： #!/usr/bin/python import requests from lxml import etree from codeClass import YDMHTTP #封装识别验证码图片的函数 def getCodeText(imgPath,codeType): pass #将验证码下载到本阅读全文

posted @ 2020-07-28 08:49 一只小白呀阅读(253) 评论(0) 推荐(0)

xpath案例-全国城市名爬取

摘要： #!/usr/bin/python import requests from lxml import etree #项目需求：解析出所有的城市名称https://www.aqistudy.cn/historydata/ if __name__ == "__main__": # headers = { 阅读全文

posted @ 2020-07-28 08:48 一只小白呀阅读(371) 评论(0) 推荐(0)

xpath案例-4K图片爬取

摘要： #!/usr/bin/python #需求：解析下载图片数据 http://pic.netbian.com/4kmeinv/ import requests from lxml import etree import os if __name__ == "__main__": url = 'http 阅读全文

posted @ 2020-07-28 08:46 一只小白呀阅读(211) 评论(0) 推荐(0)

xpath案例-58二手房

摘要： #!/usr/bin/python import requests from lxml import etree #需求：爬取58二手房中的房源信息 if __name__ == "__main__": headers = { 'User-Agent':'Mozilla/5.0 (Windows N 阅读全文

posted @ 2020-07-28 08:45 一只小白呀阅读(147) 评论(0) 推荐(0)

数据解析

摘要：聚焦爬虫：爬取页面中指定的页面内容 - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储数据解析分类： -正则 -bs4 -xpath（***）数据解析原理概述 https://book.apeland.cn/details/78/ - 解析的局部的文本内容都会在标签之间阅读全文

posted @ 2020-07-28 08:43 一只小白呀阅读(155) 评论(0) 推荐(0)

xpath解析基础

摘要： #!/usr/bin/python from lxml import etree if __name__ == "__main__": #实例化一个etree对象，且将被解析的源码加载到了该对象中 tree = etree.parse('test.html') r = tree.xpath('./h 阅读全文

posted @ 2020-07-28 08:42 一只小白呀阅读(131) 评论(0) 推荐(0)

bs4案例

摘要： #!/usr/bin/python import requests from bs4 import BeautifulSoup #需求：爬取三国演义小说所有的章节标题和章节内容http://www.shicimingju.com/book/sanguoyanyi.html if __name__ = 阅读全文

posted @ 2020-07-28 08:40 一只小白呀阅读(241) 评论(0) 推荐(0)

正则解析_分页爬取

摘要： #!/usr/bin/python import requests import re import os #需求：爬取糗事百科中的图片 if __name__ == "__main__": headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0 阅读全文

posted @ 2020-07-28 08:38 一只小白呀阅读(189) 评论(0) 推荐(0)

bs4解析基础

摘要： #!usr/bin/python from bs4 import BeautifulSoup if __name__ == "__main__": #将本地的html文档中的数据加载到该对象中 fp = open('./test.html', 'r', encoding='utf-8') soup 阅读全文

posted @ 2020-07-28 08:37 一只小白呀阅读(154) 评论(0) 推荐(0)

正则解析

摘要： #!/usr/bin/python import requests import re import os #需求：爬取糗事百科中的图片 if __name__ == "__main__": #创建一个文件夹，保存所有图片 if not os.path.exists('./qiutuLibs'): 阅读全文

posted @ 2020-07-28 08:36 一只小白呀阅读(80) 评论(0) 推荐(0)

爬取图片

摘要： #!/usr/bin/python import requests if __name__ == "__main__": #如何让爬取图片数据 url = 'https://pic.qiushibaike.com/system/pictures/12337/123378655/medium/WEH2 阅读全文

posted @ 2020-07-28 08:34 一只小白呀阅读(113) 评论(0) 推荐(0)

requests实战之药监总局数据爬取

摘要： import requests import json if __name__ == "__main__": headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like 阅读全文

posted @ 2020-07-28 08:33 一只小白呀阅读(1352) 评论(0) 推荐(0)

requests实战之豆瓣电影爬取

摘要： import requests import json if __name__ == "__main__": url = 'https://movie.douban.com/j/chart/top_list' param = { 'type':'24', 'interval_id':'100:90' 阅读全文

posted @ 2020-07-28 08:31 一只小白呀阅读(261) 评论(0) 推荐(0)

requests实战之网页采集器

摘要： import requests #UA伪装： #UA:User-Agent(请求载体的身份标识)检测: #门户网站的服务器会检测对应请求的身份载体标识，如果检测到请求的载体身份标识为某一款浏览器 #说明该请求是一个正常的请求，但是，如果检测到请求的载体身份标识不是某一款浏览器的，则表示该请求不是正常阅读全文

posted @ 2020-07-28 08:30 一只小白呀阅读(191) 评论(0) 推荐(0)

requests模块使用

摘要： #!/usr/bin/python import requests if __name__ == "__main__": url = 'https://sogou.com' response = requests.get(url=url) page_text = response.text prin 阅读全文

posted @ 2020-07-28 08:29 一只小白呀阅读(89) 评论(0) 推荐(0)

一只小白呀

Talk is cheap, show me the code.

公告