udbful - 博客园

2020年6月7日

摘要： urllib是python的基本库之一，内置四大模块，即request，error，parse，robotparser，常用的request，error，一个用于发送HTTP请求，一个用于处理请求的错误。parse用于对URL的处理，拆分，合并等 1、urllib库之urlopen函数 1 """u 阅读全文

posted @ 2020-06-07 23:08 udbful 阅读(210) 评论(0) 推荐(0)

1 python3创建virtualenv虚拟环境(Windows10)

摘要：一、安装virtualenv 1、安装命令 pip install virtualenv 2、查看python解释器路径 where python 二、创建虚拟环境 1、在控制台中，使用cd目录，切换到需要创建虚拟环境的目录 C:\Users\udbfu>d: D:\>cd Virtualenv 2 阅读全文

posted @ 2020-06-07 21:35 udbful 阅读(207) 评论(0) 推荐(0)

24 Scrapy爬虫的基本使用

摘要：主要有Request类、 Response类和Item类以及Scrapy爬虫支持的信息提取方法，有： Beautiful Soup lxml re XPath Selector CSS Selector等阅读全文

posted @ 2020-06-07 15:53 udbful 阅读(117) 评论(0) 推荐(0)

23 Scrapy爬虫第一个实例

摘要：一、Scrapy爬虫的常用命令二、建立第一个项目 https://docs.scrapy.org/en/latest/intro/tutorial.html 1、创建一个Scrapy爬虫工程 scrapy startproject python123demo 命令创建了一个python123dem 阅读全文

posted @ 2020-06-07 15:28 udbful 阅读(231) 评论(0) 推荐(0)

22 Scrapy框架简介

摘要：一、5+2结构： Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等 Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入S 阅读全文

posted @ 2020-06-07 12:30 udbful 阅读(149) 评论(0) 推荐(0)

21 Scrapy框架的安装

摘要： pip install scrapy (anaconda第三方库中并没有安装Scrapy需要自已安装) 测试：scrapy -h 以下表示测试安装成功阅读全文

posted @ 2020-06-07 11:36 udbful 阅读(158) 评论(0) 推荐(0)

2020年6月5日

19 正则表达式的基本知识

摘要：一、基本语法二、re库三、更多见Python之正则表达式 https://i.cnblogs.com/posts?cateId=1775942 阅读全文

posted @ 2020-06-05 21:43 udbful 阅读(171) 评论(0) 推荐(0)

18 “中国大学排名定向爬虫”实例介绍

摘要：一、功能描述及程序设计二、代码实现 1 """中国大学排名定向爬虫实例介绍""" 2 3 import requests 4 from bs4 import BeautifulSoup 5 import bs4 6 7 8 def getHTMLTest(url): 9 10 try: 11 r 阅读全文

posted @ 2020-06-05 20:42 udbful 阅读(228) 评论(0) 推荐(0)

17 基于bs4库的HTML内容查找方法

摘要：一、对find_all()方法举例 """基于bs4库的HTML内容查找方法""" import requests from bs4 import BeautifulSoup import re url = "https://python123.io/ws/demo.html" r = reques 阅读全文

posted @ 2020-06-05 16:13 udbful 阅读(309) 评论(0) 推荐(0)

16 信息标记形式及信息提取的一般方法

摘要： """信息提取的一般方法""" import requests from bs4 import BeautifulSoup url = "https://python123.io/ws/demo.html" r = requests.get(url) demo = r.text soup = Bea 阅读全文

posted @ 2020-06-05 00:50 udbful 阅读(159) 评论(0) 推荐(0)

公告