会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
eliwang
学无止境的小渣渣
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
10
11
12
13
14
15
16
17
18
···
20
下一页
2021年4月21日
爬虫案例-使用selenium模拟点击动态页面
摘要: 爬取斗鱼上正在直播的主播名、直播分区、直播标题以及直播热度等信息,以jsonlines的形式写入到本地json文件中,代码如下: # coding:utf-8 import unittest import json from bs4 import BeautifulSoup from seleniu
阅读全文
posted @ 2021-04-21 05:08 eliwang
阅读(374)
评论(0)
推荐(0)
2021年4月20日
python中的集合(Set)的使用
摘要: 集合是python中的一种常见数据类型,它的元素具有唯一性(不重复),因此常用来进行列表快速去重等。 一、集合的创建 set() 新建一个空的集合对象 set(iterable) 新建一个集合对象,传入参数为可迭代对象,比如字符串、列表等 示例 In [1]: s1 = set() #新建一个空的集
阅读全文
posted @ 2021-04-20 17:33 eliwang
阅读(715)
评论(0)
推荐(0)
使用selenium时,如何通过cookie来模拟登陆?
摘要: 现在许多网站的登陆都会比较复杂,有时直接使用Cookie模拟登陆不失为一个简单粗暴的方法。 使用Cookie来模拟登陆,就是用户在浏览器先登录网站,然后将Cookie信息拷贝出来,用来设置请求的Cookie。 以模拟登陆知乎为例: from selenium import webdriver fro
阅读全文
posted @ 2021-04-20 01:28 eliwang
阅读(532)
评论(0)
推荐(0)
爬虫--使用百度OCR来识别图片验证码
摘要: 通过使用用百度AI的OCR来自动识别图片中的文字,效果很不错。 在这里跟大家简单分享一下如何使用,在处理图片前,最好先经过灰度化、二值化、降噪等预处理,直接上代码: # coding:utf-8 import requests import base64 # import jsonpath from
阅读全文
posted @ 2021-04-20 01:02 eliwang
阅读(592)
评论(0)
推荐(0)
2021年4月9日
多线程爬虫案例-(糗事百科)
摘要: 爬取糗事百科的段子,观察不同页面url的变化,以第2页为例,https://www.qiushibaike.com/text/page/2/,第3页https://www.qiushibaike.com/text/page/3/,找到规律,只需要将后面的数字改成对应页码即可。 说明: 使用reque
阅读全文
posted @ 2021-04-09 17:59 eliwang
阅读(94)
评论(0)
推荐(0)
2021年4月2日
python制作图片验证码示例
摘要: 主要用到python图片处理库-PIL库,同时需要注意字体.tff文件存放的具体目录,通常在/usr/share/fonts下,自己找找看 # coding:utf-8 import random import stringfrom PIL import Image, ImageDraw, Imag
阅读全文
posted @ 2021-04-02 19:53 eliwang
阅读(161)
评论(0)
推荐(0)
2021年3月30日
MongoDB数据库的使用
摘要: MongoDB是一个基于分布式 文件存储的NoSQL数据库,适合存储JSON风格文件的形式。 三元素:数据库、集合和文档。 文档:对应着关系数据库中的行,就是一个对象,由键值对构成,是json的扩展Bson形式,示例 {'name':'guojing','gender':'男'} 集合:类似于关系数
阅读全文
posted @ 2021-03-30 23:01 eliwang
阅读(2360)
评论(6)
推荐(2)
浅谈孤儿进程、僵尸进程以及守护进程
摘要: 孤儿进程: 父进程先退出,而它的子进程还在运行,那么还在运行的子进程就被称为孤儿进程。孤儿进程会被进程号为1的init进程所收养,并对它们完成工作状态的收集工作,因此不会对系统造成危害。 僵尸进程: 子进程退出,而父进程并没有调用wait()或waitpid()函数来获取子进程的信息,导致子进程的进
阅读全文
posted @ 2021-03-30 12:05 eliwang
阅读(395)
评论(0)
推荐(0)
2021年3月29日
python中gzip模块的使用
摘要: gzip模块能够直接压缩和解压缩bytes-like类型的数据,同时也能实现对应格式文件的压缩与解压缩 一、数据压缩与解压缩 压缩 gzip.compress(data) data:需要压缩的bytes-like类型数据 compresslevel参数:可选,用数字0-9表示压缩级别,默认最高压缩级
阅读全文
posted @ 2021-03-29 12:48 eliwang
阅读(18601)
评论(0)
推荐(1)
2021年3月26日
nginx提供网站首页的一个实例
摘要: 如果既想匹配'/'进行反向代理,同时又想通过nginx提供网站首页,可以在server中进行如下配置: user python; # 运行Nginx的用户 worker_processes auto; # 根据经验,一般为处理器核数的1-2倍 error_log logs/error.log not
阅读全文
posted @ 2021-03-26 16:28 eliwang
阅读(314)
评论(0)
推荐(0)
上一页
1
···
10
11
12
13
14
15
16
17
18
···
20
下一页
公告