摘要: 提取网页源代码 import urllib.request print(urllib.request.urlopen("http://edu.csdn.net").read()) 快捷键 Ctrl+F 搜索 自动提取课程页面的QQ群 import urllib.request import re d 阅读全文
posted @ 2020-07-11 19:20 chstor 阅读(110) 评论(0) 推荐(0) 编辑
摘要: 什么是正则表达式 我们希望只提取出关注的数据,此时可以通过一些表达式进行提取,正则表达式就是其中一种进行数据筛选的表达式。 原子 原子是正则表达式中最基本的组成单位,每个正则表达式中至少包含一个原子 常见的原子类型有: 1、 普通字符作为原子 2、 非打印字符作为原子 3、 通用字符作为原子 4、 阅读全文
posted @ 2020-07-11 17:39 chstor 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 是什么? 网络爬虫就是自动从互联网中定向或不定向地采集信息的一种程序 网络爬虫有很多种类型,常用的有通用网络爬虫、聚焦网络爬虫等。 做什么? 通用网络爬虫可以应用在搜索引擎中,聚焦网络爬虫可以从互联网中自动采集信息并代替我们筛选出相关的数据出来。 网络爬虫经常应用在以下方面: 1、 搜索引擎 2、 阅读全文
posted @ 2020-07-11 16:23 chstor 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 异常处理概述 Python程序在执行的时候,经常会遇到异常,如果中间异常不处理,经常会导致程序崩溃。比如后面我们写爬虫的时候,如果不进行异常处理,很可能虫爬了一半,直接崩溃了。 异常处理 异常处理格式 try: 程序 except Exception as 异常名称: 异常处理部分 try: for 阅读全文
posted @ 2020-07-11 16:18 chstor 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 文件的操作 打开文件 open(文件地址,操作形式) w:写入 r:读取 b:二进制 a+:追加 fh = open("F:/Python/g.txt","r") data = fh.read() dataline = fh.readline() print(dataline) 写入文件(w/a+) 阅读全文
posted @ 2020-07-11 16:12 chstor 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 什么是Python模块 为了让Python程序实现起来更方便,我们可以按需求类别将一些常见的功能(函数)组合在一起,形成模块 Python模块的导入 import 模块名 from ··· import ··· 第三方模块的安装 1、pip方式(网络安装) pip install scrapy 2、 阅读全文
posted @ 2020-07-11 09:31 chstor 阅读(130) 评论(0) 推荐(0) 编辑