会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
运维家
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
10
下一页
2022年6月4日
python爬虫-18-python与json的爱恨情仇
摘要: JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。json作为流传广泛的数据格式,我们必须得知道使用python是如何处理的,毕竟json的本质也是字符串嘛。 1、json支持的数据格式 (1)对象(字典),使用花括号{}; (2)数组(
阅读全文
posted @ 2022-06-04 21:39 郭-吉尔伽美什
阅读(17)
评论(0)
推荐(0)
2022年5月31日
python爬虫-16-python之正则表达式,以最快的速度获取有效数据(上)
摘要: 老话说得好:世界上分为两种人,一种是会正则的,一种是不会正则的。 1、介绍 又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。 许多程序设计语言都支持利用
阅读全文
posted @ 2022-05-31 11:07 郭-吉尔伽美什
阅读(10)
评论(0)
推荐(0)
2022年5月30日
python爬虫-14-python获取数据之BeautifulSoup4库(下)
摘要: 这里我们主要梳理下思路,整理下和BeautifulSoup有关的内容。 1、find和find_all 相同点 在提取数据的时候,第一个参数是标签的名字,如果后面还想有其他参数作为过滤的方式而存在,可以通过关键字的形式来传输,比如'class_'=red,如果你的关键字不是python关键字的话,后
阅读全文
posted @ 2022-05-30 11:14 郭-吉尔伽美什
阅读(11)
评论(0)
推荐(0)
2022年5月29日
python爬虫-12-用python爬取视频网站电影天堂中每一个视频的详情,看电影?来吧(下)
摘要: 上一篇中我们写了一半了,本文在上一篇的基础上继续进行。 1、特殊处理点 需要注意一个问题,之前我们取值的时候,都是一行一行读取的,然后从中获取关键字,那么如果是下面的情况呢? 可以看到一个电影里面往往有很多个演员,这种时候我们如果再根据关键字演员来筛选的话,肯定是不合适的,那么我们采取下面的方式来进
阅读全文
posted @ 2022-05-29 18:54 郭-吉尔伽美什
阅读(27)
评论(0)
推荐(0)
2022年5月28日
python爬虫--10-使用python爬取豆瓣正在上映的电影
摘要: 学以致用,我们使用前面的知识,来爬取一下豆瓣上正在上映的电影,由于我们还没有整理存储相关的资料,那么我们就先打印出来,不做存储示例。 1、爬取流程梳理 计划获取内容为:名字、年份、时长、地区、演员、封面等信息。 (1)整体定位 首先我们要知道爬取的哪个页面的哪些内容,如下图: (2)范围定位 然后我
阅读全文
posted @ 2022-05-28 21:35 郭-吉尔伽美什
阅读(43)
评论(0)
推荐(0)
2022年5月27日
python爬虫-08-python爬虫使用xpath准确定位到页面中的某个内容
摘要: 当我们爬取网页的时候,里面的数据是杂乱的,我们实际上只需要对应页面中的某些内容,那么我们如何将其筛选出来呢?我们使用xpath就可以准确的采集到我们需要的数据,从而摒弃那些对我们“无用”的数据。 1、安装xpath 推荐主流浏览器:Google浏览器 点击Google浏览器的扩展程序,然后再点击左上
阅读全文
posted @ 2022-05-27 15:59 郭-吉尔伽美什
阅读(36)
评论(0)
推荐(0)
2022年5月26日
python爬虫-05-python爬虫代理,python爬虫如何携带cookie呢,本文带你掌握
摘要: 1、python爬虫代理 使用python爬虫高频率的访问一个固定的网站的话,容易触发该目的网站的反爬机制,将你对应的IP地址进行封禁,那么这个时候我们可以通过代理的方式,让目的网站无法识别到是哪一个IP地址访问的。 (1)检测网站 我们在测试的时候,如何知道我们是通过代理访问的呢?这个时候我们需要
阅读全文
posted @ 2022-05-26 22:37 郭-吉尔伽美什
阅读(23)
评论(0)
推荐(0)
2022年5月24日
python爬虫-04-如何爬取网易云音乐的歌曲,再认识urllib模块
摘要: 接上文,续写urilib模块在python爬虫中的一些使用方法。 1、urlencode函数 用来将汉字或者其他内容变成浏览器中url的访问方式,就是乱码(百分号加16进制的编码组成的内容); 示例: from urllib import parse jier = {'wd': '刘亦菲', 'ag
阅读全文
posted @ 2022-05-24 23:08 郭-吉尔伽美什
阅读(35)
评论(0)
推荐(0)
2022年5月17日
python爬虫-02-http协议认识,以及python爬虫相关知识点认识
摘要: 1、什么是http和https协议 HTTP协议:全称是HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口号是80端口。 HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口号是443端口。 2
阅读全文
posted @ 2022-05-17 09:55 郭-吉尔伽美什
阅读(17)
评论(0)
推荐(0)
2022年5月10日
如何部署mysql高可用呢?本文带你学习
摘要: 此文档旨在为业务系统,提供数据库mysql高可用方案,此方案在基于mysql双主模式下,采用keepalive漂移VIP地址的方式,实现高可用。 一、架构思路 1、在两台服务器上,分别搭建mysql数据库,这两台数据库都可读写,互为主从,下文统称mysql_A,mysql_B; 2、默认情况下,只使
阅读全文
posted @ 2022-05-10 22:57 郭-吉尔伽美什
阅读(14)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
10
下一页
公告