摘要:
#!/usr/bin/python # -*- coding:utf-8 -*- #post请求(携带了参数) #响应数据是一组json数据 import requests import json if __name__ == '__main__': #指定url post_url = 'https 阅读全文
posted @ 2020-07-28 19:59
一只小白呀
阅读(305)
评论(0)
推荐(0)
摘要:
nmap 192.168.1.1 nmap -sS -sV -T4 192.186.1.1 -sS:使用TCP SYN扫描 -sV:进行版本检测 -T4:使用的是一种快速扫描的方式,扫描速度的级别范围在(T0-T5)之间,级别越高,扫描速度越快。 nmap -A -T4 192.168.1.1 -A 阅读全文
posted @ 2020-07-28 11:05
一只小白呀
阅读(293)
评论(0)
推荐(0)
摘要:
a = 1 def fun(a): a = 2 fun(a) print(a) #1 a = [] def fun(a): a.append(1) fun(a) print(a) #[1] 所有的变量都可以理解是内存中一个对象的“引用”,或者,也可以看似c中void*的感觉。 通过id来看引用a的内 阅读全文
posted @ 2020-07-28 09:33
一只小白呀
阅读(18)
评论(0)
推荐(0)
摘要:
selenium模块的基本使用 问题:selenium模块和爬虫之间的关联 - 便捷的获取网站中动态加载的数据 - 便捷实现模拟登录 什么是selenium模块:基于浏览器自动化的模块 - 环境安装 下载安装selenium:pip install selenium 下载浏览器驱动程序: http: 阅读全文
posted @ 2020-07-28 09:30
一只小白呀
阅读(272)
评论(0)
推荐(0)
摘要:
from selenium import webdriver from time import sleep #实现无可视化界面 from selenium.webdriver.chrome.options import Options #实现规避检测风险 from selenium.webdrive 阅读全文
posted @ 2020-07-28 09:28
一只小白呀
阅读(344)
评论(0)
推荐(0)
摘要:
from selenium import webdriver from time import sleep bro = webdriver.Chrome(executable_path='./chromedriver') bro.get('https://qzone.qq.com/') bro.sw 阅读全文
posted @ 2020-07-28 09:26
一只小白呀
阅读(406)
评论(0)
推荐(0)
摘要:
from selenium import webdriver from time import sleep #导入动作链对应的类 from selenium.webdriver import ActionChains bro = webdriver.Chrome(executable_path='. 阅读全文
posted @ 2020-07-28 09:24
一只小白呀
阅读(177)
评论(0)
推荐(0)
摘要:
from selenium import webdriver from time import sleep bro = webdriver.Chrome(executable_path='./chromedriver') bro.get('https://www.taobao.com/') #标签定 阅读全文
posted @ 2020-07-28 09:22
一只小白呀
阅读(99)
评论(0)
推荐(0)
摘要:
from selenium import webdriver from lxml import etree from time import sleep #实例化一个浏览器对象(传入浏览器的驱动程序) bro = webdriver.Chrome(executable_path='./chromed 阅读全文
posted @ 2020-07-28 09:18
一只小白呀
阅读(108)
评论(0)
推荐(0)
摘要:
from selenium import webdriver from time import sleep # 后面是你的浏览器驱动位置,记得前面加r'','r'是防止字符转义的 driver = webdriver.Chrome(r'驱动程序路径') # 用get打开百度页面 driver.get 阅读全文
posted @ 2020-07-28 09:16
一只小白呀
阅读(162)
评论(0)
推荐(0)
摘要:
#环境安装:pip install aiohttp #使用该模块中的ClientSession import requests import asyncio import time import aiohttp start = time.time() urls = [ 'http://127.0.0 阅读全文
posted @ 2020-07-28 09:13
一只小白呀
阅读(303)
评论(0)
推荐(0)
摘要:
import requests import asyncio import time start = time.time() urls = [ 'http://127.0.0.1:5000/bobo', 'http://127.0.0.1:5000/jav', 'http://127.0.0.1:5 阅读全文
posted @ 2020-07-28 09:11
一只小白呀
阅读(102)
评论(0)
推荐(0)
摘要:
https://ss1.bdstatic.com/70cFvXSh_Q1YnxGkpoWK1HF6hhy/it/u=2075903360,405209795&fm=26&gp=0.jpg 阅读全文
posted @ 2020-07-28 09:08
一只小白呀
阅读(80)
评论(0)
推荐(0)
摘要:
import asyncio def request(url): print('正在请求的url是',url) print('请求成功',url) return url #async修饰的函数,调用之后返回的一个协程对象 c = request('www.baidu.com') # #创建一个事件循 阅读全文
posted @ 2020-07-28 09:06
一只小白呀
阅读(104)
评论(0)
推荐(0)
摘要:
高性能异步爬虫 目的:在爬虫中使用异步实现高性能的数据爬取操作。 异步爬虫的方式: - 多线程、多进程(不建议): - 好处:可以为相关阻塞的阻塞单独开启线程或者进程,阻塞操作就可以异步执行。 - 弊端:无法无限制的开启多线程或者多进程。 - 线程池、进程池(适当使用): - 好处:可以降系统对进程 阅读全文
posted @ 2020-07-28 09:04
一只小白呀
阅读(177)
评论(0)
推荐(0)
摘要:
import requests from lxml import etree import re from multiprocessing.dummy import Pool #需求:爬取梨视频的视频数据 headers = { 'User-Agent':'Mozilla/5.0 (Windows 阅读全文
posted @ 2020-07-28 09:01
一只小白呀
阅读(189)
评论(0)
推荐(0)
摘要:
# import time # #使用单线程串行方式执行 # def get_page(str): # print("正在下载:", str) # time.sleep(2) # print("下载成功:", str) # name_list = ["aa","bb","cc","dd"] # st 阅读全文
posted @ 2020-07-28 08:58
一只小白呀
阅读(139)
评论(0)
推荐(0)
摘要:
import requests import random if __name__ == "__main__": #不同浏览器的UA header_list = [ # 遨游 {"user-agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 阅读全文
posted @ 2020-07-28 08:56
一只小白呀
阅读(140)
评论(0)
推荐(0)
摘要:
验证码识别 反爬机制:验证码 识别验证码图片中的数据用于模拟登录相关之间真的操作 识别验证码的操作: - 人工肉眼的识别 - 第三方自动识别 - 云打码 模拟登录: - 爬取基于某些基于用户的用户信息. 需求:对人人网进行模拟登录 - 点击登录按钮之后会发起一个post请求 - post请求中会携带 阅读全文
posted @ 2020-07-28 08:54
一只小白呀
阅读(264)
评论(0)
推荐(0)
摘要:
#编码流程: #1.验证码的识别,获取验证码图片的文字数据 #2.对post请求进行发送(处理请求函数) #3.对响应函数进行持久化存储 import requests from lxml import etree from CodeClass import YDMHttp #创建一个session 阅读全文
posted @ 2020-07-28 08:53
一只小白呀
阅读(335)
评论(0)
推荐(0)
摘要:
#编码流程: #1.验证码的识别,获取验证码图片的文字数据 #2.对post请求进行发送(处理请求函数) #3.对响应函数进行持久化存储 import requests from lxml import etree from CodeClass import YDMHttp #1.对验证码图片进行捕 阅读全文
posted @ 2020-07-28 08:51
一只小白呀
阅读(329)
评论(0)
推荐(0)
摘要:
#!/usr/bin/python import requests from lxml import etree from codeClass import YDMHTTP #封装识别验证码图片的函数 def getCodeText(imgPath,codeType): pass #将验证码下载到本 阅读全文
posted @ 2020-07-28 08:49
一只小白呀
阅读(253)
评论(0)
推荐(0)
摘要:
#!/usr/bin/python import requests from lxml import etree #项目需求:解析出所有的城市名称https://www.aqistudy.cn/historydata/ if __name__ == "__main__": # headers = { 阅读全文
posted @ 2020-07-28 08:48
一只小白呀
阅读(371)
评论(0)
推荐(0)
摘要:
#!/usr/bin/python #需求:解析下载图片数据 http://pic.netbian.com/4kmeinv/ import requests from lxml import etree import os if __name__ == "__main__": url = 'http 阅读全文
posted @ 2020-07-28 08:46
一只小白呀
阅读(211)
评论(0)
推荐(0)
摘要:
#!/usr/bin/python import requests from lxml import etree #需求:爬取58二手房中的房源信息 if __name__ == "__main__": headers = { 'User-Agent':'Mozilla/5.0 (Windows N 阅读全文
posted @ 2020-07-28 08:45
一只小白呀
阅读(147)
评论(0)
推荐(0)
摘要:
聚焦爬虫:爬取页面中指定的页面内容 - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储 数据解析分类: -正则 -bs4 -xpath(***) 数据解析原理概述 https://book.apeland.cn/details/78/ - 解析的局部的文本内容都会在标签之间 阅读全文
posted @ 2020-07-28 08:43
一只小白呀
阅读(155)
评论(0)
推荐(0)
摘要:
#!/usr/bin/python from lxml import etree if __name__ == "__main__": #实例化一个etree对象,且将被解析的源码加载到了该对象中 tree = etree.parse('test.html') r = tree.xpath('./h 阅读全文
posted @ 2020-07-28 08:42
一只小白呀
阅读(131)
评论(0)
推荐(0)
摘要:
#!/usr/bin/python import requests from bs4 import BeautifulSoup #需求:爬取三国演义小说所有的章节标题和章节内容http://www.shicimingju.com/book/sanguoyanyi.html if __name__ = 阅读全文
posted @ 2020-07-28 08:40
一只小白呀
阅读(241)
评论(0)
推荐(0)
摘要:
#!/usr/bin/python import requests import re import os #需求:爬取糗事百科中的图片 if __name__ == "__main__": headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0 阅读全文
posted @ 2020-07-28 08:38
一只小白呀
阅读(189)
评论(0)
推荐(0)
摘要:
#!usr/bin/python from bs4 import BeautifulSoup if __name__ == "__main__": #将本地的html文档中的数据加载到该对象中 fp = open('./test.html', 'r', encoding='utf-8') soup 阅读全文
posted @ 2020-07-28 08:37
一只小白呀
阅读(154)
评论(0)
推荐(0)
摘要:
#!/usr/bin/python import requests import re import os #需求:爬取糗事百科中的图片 if __name__ == "__main__": #创建一个文件夹,保存所有图片 if not os.path.exists('./qiutuLibs'): 阅读全文
posted @ 2020-07-28 08:36
一只小白呀
阅读(80)
评论(0)
推荐(0)
摘要:
#!/usr/bin/python import requests if __name__ == "__main__": #如何让爬取图片数据 url = 'https://pic.qiushibaike.com/system/pictures/12337/123378655/medium/WEH2 阅读全文
posted @ 2020-07-28 08:34
一只小白呀
阅读(113)
评论(0)
推荐(0)
摘要:
import requests import json if __name__ == "__main__": headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like 阅读全文
posted @ 2020-07-28 08:33
一只小白呀
阅读(1352)
评论(0)
推荐(0)
摘要:
import requests import json if __name__ == "__main__": url = 'https://movie.douban.com/j/chart/top_list' param = { 'type':'24', 'interval_id':'100:90' 阅读全文
posted @ 2020-07-28 08:31
一只小白呀
阅读(261)
评论(0)
推荐(0)
摘要:
import requests #UA伪装: #UA:User-Agent(请求载体的身份标识)检测: #门户网站的服务器会检测对应请求的身份载体标识,如果检测到请求的载体身份标识为某一款浏览器 #说明该请求是一个正常的请求,但是,如果检测到请求的载体身份标识不是某一款浏览器的,则表示该请求不是正常 阅读全文
posted @ 2020-07-28 08:30
一只小白呀
阅读(191)
评论(0)
推荐(0)
摘要:
#!/usr/bin/python import requests if __name__ == "__main__": url = 'https://sogou.com' response = requests.get(url=url) page_text = response.text prin 阅读全文
posted @ 2020-07-28 08:29
一只小白呀
阅读(89)
评论(0)
推荐(0)

浙公网安备 33010602011771号