2021 年 8月随笔档案 - 山水无期

猿人学web爬虫攻防大战

摘要：这里有1、2、3、4、12、13、15题 1、第一题 import execjs import requests def get_response(): js_code = """ var window = this; var hexcase = 0; var b64pad = ""; var ch 阅读全文

posted @ 2021-08-28 22:07 山水无期阅读(528) 评论(0) 推荐(0)

python 装饰器

摘要：一、装饰器原理 '''javascript Python 面向对象编程一切皆对象函数为闭包函数，可以将函数名赋值给变量 ''' def hi(name = "yasoob"): return "hi" + name print(hi()) #output:"hi yasoob" #我们甚至可以将阅读全文

posted @ 2021-08-28 18:38 山水无期阅读(52) 评论(0) 推荐(0)

网址整理

摘要：1、openpyxl的详细操作 https://blog.csdn.net/weixin_41546513/article/details/109555832 2、github使用指南 https://blog.csdn.net/feengg/article/details/88722614 htt 阅读全文

posted @ 2021-08-21 10:00 山水无期阅读(420) 评论(0) 推荐(0)

hook详解和应用

摘要：一、hook的作用区域 1、客户端的过程链接服务器拿回资源渲染（解析资源）资源初始化（自执行）页面逻辑等待用户输入加密数据提交数据 2、hook的本质在这些流程任意环节中插入自己的代码，让浏览器限制性自己的代码，然后再执行原本的网站代码。 ①:链接服务器 hook能拿到服务器的IP 阅读全文

posted @ 2021-08-18 21:44 山水无期阅读(1378) 评论(0) 推荐(0)

websockets的原理

摘要：一、应用场景 http 协议客户端发起请求的时候才会返回内容，如果要处理类似于聊天室的应用，需要客户端不间断的发起请求（轮询），非常占用服务器的性能。所以websocket出现了。二、ws(wss)协议原理 1、特点服务器可以主动向客户端推送信息，客户端也可以主动向服务器发送信息（1）建立在阅读全文

posted @ 2021-08-18 20:52 山水无期阅读(645) 评论(0) 推荐(0)

selenium常用配置

摘要：def init_chrome_options(self,): chrome_options = webdriver.ChromeOptions() # 设置浏览器初始位置x,y & 宽高x,y chrome_options.add_argument(f'--window-position={21 阅读全文

posted @ 2021-08-13 14:42 山水无期阅读(180) 评论(0) 推荐(0)

MySQL数据库和Python的交互

摘要：一、缘由这是之前学习的时候写下的基础代码，包含着MySQL数据库和Python交互的基本操作。二、代码展示 import pymysql ''' 1、数据库的链接和创建视图 ''' # db=pymysql.connect(host='localhost',user='root',passwor 阅读全文

posted @ 2021-08-06 01:17 山水无期阅读(270) 评论(0) 推荐(0)

MongoDB数据库与Python的交互

摘要：一、缘由这是之前学习的时候写下的基础代码，包含着MongDB数据库和Python交互的基本操作。二、代码实现 import pymongo #连接数据库 client=pymongo.MongoClient(host='localhost',port=27017) #制定数据库 db=clien 阅读全文

posted @ 2021-08-06 01:15 山水无期阅读(40) 评论(0) 推荐(0)

re、base64的结合使用爬取豆瓣top250

摘要：一、缘由对于豆瓣的这个网站，记得使用了不少于三种的爬取和解析方式来进行的。今天的这种解析方式是我使用起来较为顺手，后来就更喜欢使用xpath解析，但是这两种也需要掌握。二、代码展示 '''爬取豆瓣前50%的电影以及基本信息''' #html和css基础 #名称、评分、评价数、电影概况、电影链接阅读全文

posted @ 2021-08-06 01:10 山水无期阅读(64) 评论(0) 推荐(0)

日志文件的设置

摘要：一、缘由在脚本的运行中离不开日志文件，因为日志文件会更好的帮助我们找到出选的问题，或者来帮助我们审查是否出现问题，这样我们就不用时时刻刻的看着运行的过程也可以排除问题二、代码展示 #coding:utf-8 import logging import os def init_log(path): 阅读全文

posted @ 2021-08-06 01:03 山水无期阅读(118) 评论(0) 推荐(0)

base64解析爬取糗百

摘要：一、缘由这是我之前刚开始学习的时候爬取糗百的练习内容，主要练习的是bs64解析。虽然现在用的不是特别的多，但是当初的时候用起来还是非常的顺手的。二、代码实现 #coding:utf-8 import requests from bs4 import BeautifulSoup def downl 阅读全文

posted @ 2021-08-06 00:59 山水无期阅读(80) 评论(0) 推荐(0)

referer的反爬和爬虫下载视频

摘要：一、缘由在梨视频等一些网站中会使用防盗链作为反爬的基础方法，这个反爬并不严重，只是平时的时候需要多加留意。此次实现对应链接中梨视频的下载。二、代码实现 #1、拿到contid #2、拿到videoStatus返回的json.-> srcURL #3、srcURL里面的内容进行修整成为src # 阅读全文

posted @ 2021-08-06 00:45 山水无期阅读(284) 评论(0) 推荐(0)

爬取图片

摘要：爬取小姐姐的美图一、缘由我想每一个学习爬虫的都会爬取一次小姐姐的美图吧，我也不例外。还记得这是我刚学不久的时候爬取的图片。来，先上效果图。二、代码实现 #encoding='utf-8' #1、拿到主页面的源代码，然后提取到企业民的链接地址，herf #2、通过herf拿到子页面的内容，从子页阅读全文

posted @ 2021-08-06 00:28 山水无期阅读(117) 评论(0) 推荐(0)

线程池增加爬虫效率

摘要：一、缘由有的时候为了提高爬虫的效率，那么就需要使用各种方法来提高爬虫的效率，无疑多线程是一个非常好的选择。不过在使用的时候，一定要控制好爬取的速率，短时间的访问量不要太大。第一，避免给别人家的服务器造成比较大的影响。第二，方式你的IP或者你的账号被封禁。即使出现第二种情况的时候，我们可以使用由代理阅读全文

posted @ 2021-08-06 00:15 山水无期阅读(107) 评论(0) 推荐(0)

使用pandas处理数据和matplotlib生成可视化图表

摘要：一、缘由上一篇输入关键词“口红”，将淘宝中的的相关商品信息全部爬取了下拉，并且以CSV的文件格式储存。我们拿到数据之后，那么就需要对数据进行处理。只是将爬取到的数据以更直观的方式——图表呈现出来。并且最后使用jieba、wordcloud来对商品名称进行词云的分析。二、代码实现话不多说，直接上阅读全文

posted @ 2021-08-06 00:03 山水无期阅读(480) 评论(0) 推荐(0)

使用selenium爬取淘宝

摘要：一、出现的问题前段时间在使用selenium对淘宝进行模拟登陆的时候，输入完正好和密码，然后验证码无论如何都不能划过去。找了好久，原来是因为selenium在浏览器中运行的时候会暴露一些特征变量，被识别出来是爬虫，所以无法进行登录操作。如在非selenium运行的时候"window.naviga 阅读全文

posted @ 2021-08-05 23:43 山水无期阅读(872) 评论(0) 推荐(0)

pandas中groupby的使用

摘要：一、缘由在爬取大量的数据之后，需要对数据进行分组的处理，于是就使用了groupby，但是我需要的并不是分组之后数据的聚合分析，我需要的是原生的某些数据。但是却找不到网上的相关案例。于是，我就自己尝试的进行。终于找到了去找原生数据的方法了。二、具体实现 1、先看一个简单和基础的 for i in 阅读全文

posted @ 2021-08-05 19:33 山水无期阅读(306) 评论(0) 推荐(0)

pandas中loc和iloc的使用细节

摘要：1、缘由前段时间在使用pandas库中的索引和切片的时候，突然就感觉有点懵，赋值和索引的操作总是报错。网上的很多资料讲的也非常的浅显，而且使用起来非常不顺手。于是我就找到很多的网上资料，然后自己动手操作总结了一下。 2、细节内容 1、loc 对应的是原生索引，对应的是序列号，索引的设置只能是数阅读全文

posted @ 2021-08-05 18:57 山水无期阅读(950) 评论(0) 推荐(0)

python算法初步（一）

摘要：python算法初步（一）冒泡排序时间效率O(n²)原理：依次比较相邻两个位置的元素大小，然后按照要求交换位置。 #从中选出一个数据（作为最小数据），然后和其他的数据依次比较，如果有更小的数据，那么就一次比较。 def select_sort(data): for i in range(len( 阅读全文

posted @ 2021-08-04 18:53 山水无期阅读(43) 评论(0) 推荐(0)

山水无期

08 2021 档案

公告