练习41：学着去说面向对象

一词汇训练

类（class）：告诉python创建一个新类型的东西。（Tell python to make a new type of thing）.
对象（object）：两种含义：最基本类型的东西，任何实例。（the most basic type of thing,and any instance of something）。
实例（instance）：当你告诉python创建一个类的时候你所得到的东西。（What you get when you tell pythong to create a class）.
def：你如何在类里面定义一个函数。（How you define a function inside a class）。
self：在一个类的函数里面，self是被访问的实例/对象的一个变量。（inside the functions in a class,self is a variable for the instance/object being accessed）。
继承（inheritance）：关于一个类能从另一个类那里继承它的特征的概念，很像你和你的父母。（The concept that one class can inhert traits from other class,much like you and your parents）。
组合（composition）：关于一个类可以由其它一些类构成的概念，很像一辆车包含几个轮子。（The concept that a class can be composed of other classes as parts,much like how a car has wheels）。
属性（attribute）：类所拥有的从组合那里得到的特性，通常是变量。（A property classes have that are from composition and are usually variables）。
is-a：一种用来表达某物继承自一种东西的表述，就像“三文鱼是一种鱼”。（A phrase to say that something are from inherits from another,as in a "salmon" is a "fish"）
has-a：一种用来表达某物是由一些东西组成或具有某种特性的表述，就像“三文鱼有一个嘴巴。”（A phrase to say that something is composed of other things or has a trait,as in "a salmon has-a mouth."）

二短语训练

class X(Y) ：创建一个名为 X 并继承自 Y 的类。(“Make a class named X that is-a Y.”)
class X(object): def __init__(self, J)：类 X 有一个带有 self 和 J 参数的 __init__ 函数。(“class X has-a __init__ that takes self and J parameters.”)
class X(object): def M(self, J) ：类 X 有一个带有 self 和 J 参数的 M 函数。(“class X has-a function named M that takes self and J parameters.”)
foo = X() ：设 foo 为类 X 的一个实例。(“Set foo to an instance of class X.”)
foo.M(J) 从 foo 那里获取 M 函数，并用 self 和 J 参数来调用它。(“From foo, get the M function, and call it with parameters self, J.”)
foo.K = Q 从 foo 那里获取 K 属性，并设它为 Q。(“From foo, get the K attribute, and set it to Q.”)

三代码

1 urllib标准库

网络爬虫简介：
- 定义：按照一定规则，自动抓取万维网信息的程序或脚本。
- 两大特征：
  - 能按程序员要求下载数据或者内容
  - 能自动在网络上流窜（从一个网页跳转到另一个网页）
- 两大步骤：
  - 下载网页
  - 提取正确的信息
  - 根据一定规则自动跳转其它撤销页面上执行以上两步操作
- 爬虫分类：
  - 通用爬虫（常见的搜索引擎）
  - 专用爬虫（聚集爬虫）
- python常用的网络包：
  - Python3：urllib、requests
urllib库：
- 是什么：urllib是python内置的处理HTTP请求的库
- 有什么：主要包含以下四个模块
  - urllib.request 请求模块：它是最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一样，只需要给库方法传入 URL 还有额外的参数，就可以模拟实现这个过程了。
  - urllib.error 异常处理模块：如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作保证程序不会意外终止。
  - urllib.parse url解析模块： parse 模块是一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等等的方法。
  - urllib.robotparser robots.txt解析模块：主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬的，其实用的比较少。
urllib.request.urlopen函数：
- 功能：用于实现对目标url的访问。
- 函数原型：urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
- 参数介绍：一般常用的有三个——url,data,timeout
  - url 参数：目标资源在网路中的位置。可以是一个表示URL的字符串（如：https://www.boxuegu.com）；也可以是一个urllib.request对象。
  - data参数：data用来指明发往服务器请求中的额外的参数信息（如：在线翻译，在线答题等提交的内容），HTTP是python中实现的众多网络通信http、https、ftp等协议中，唯一一个使用data 参数的，也就是说只有打开的是http网址的时候，自定义data参数才会有作用。
    - data必须是一个字节数据对象（Python的bytes object）
    - data必须符合标准the standard application/x-www-form-urlencoded format，怎么得到这种标准结构的data呢？使用urllib.parse.urlencode()将自定义的data转换成标准格式，而这个函数所能接收的参数类型是pyhon中的mapping object（键/值对，如dict） or a sequence of two-element tuples（元素是tuple的列表）。
    - data也可以是一个可迭代的对象，这种情况下就需要配置response对象中的Conten-length，指明data的大小。
    - data默认是None，此时以GET方式发送请求；当用户给出data参数的时候，改为POST方式发送请求。
  - timeout参数：设置超时时间，单位是秒。
    - 如果请求超过这个时间还没有得到响应，就会抛出异常。如果没有设定的话，就会使用全局的默认时间。支持HTTP,HTTPS,FTP!
    - 我们可以设置超时时间来控制网页爬取时间超过规定时间就跳出，使用try except语句是实现。
  - context参数：实现SSL加密传输。（基本上很少用）
  - cafile、capath参数：是指定 CA 证书和它的路径，这个在请求 HTTPS 链接时会有用。（基本很少用）
  - cadefault 参数现在已经弃用了，默认为 False。
- urlopen返回对象提供方法：
  - read() , readline() ,readlines() , fileno() , close() ：对HTTPResponse类型数据进行操作
  - info()：返回HTTPMessage对象，表示远程服务器返回的头信息
  - getcode()：返回Http状态码。如果是http请求，200请求成功完成;404网址未找到
  - geturl()：返回请求的url
- 版本区别：python2和python3在导入urlrequest的方式是不一样的。
  - python2中：import urllib2
  - 而python3里面把urllib分开了，分成了urlrequest和urlerror，在这里我们只需导入urlrequest即可。from urllib.request import urlopen
Request类
- 功能：urlopen()可以实现简单的请求，但是它无法添加一些header信息，也就不能构建一个完整的请求。所以我们可以用Request类来构建一个完整的请求。
- 函数原型：class urlib.request.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,method=None)
- 参数介绍：
  - url：请求的url ，必传参数。
  - data：类型是bytes类型，如果是字典，使用urllib.parse中的urlencode()编码！
  - headers：参数是一个字典，表示请求的请求标识和载体！可以在构造 Request 时通过 headers 参数直接构造，也可以通过调用Request实例的add_header()方法来添加。 Request Headers 最常用的用法就是通过修改 User-Agent 来伪装浏览器，默认的 User-Agent 是 Python-urllib，我们可以通过修改它来伪装浏览器。
  - origin_host：表示请求的host名称或者IP地址。
  - unverifiable：参数表示这个请求是否是无法验证的，默认是False.意思就是说用户没有足够权限来选择接收这个请求的结果。例如我们请求一个 HTML 文档中的图片，但是我们没有自动抓取图像的权限，这时 unverifiable 的值就是 True。
  - method：是一个字符串，它用来指示请求使用的方法，比如GET,POST,PUT等等。
异常处理：
- 功能：urllib 的error模块定义了由request模块产生的异常。如果出现了问题，request模块就会抛出error模块中定义的异常！
- 两个常见的异常：URLError,HTTPError，HTTPError是URLError的子类
  - URLError里只有一个属性：reason,即抓异常的时候只能打印错误信息
  - HTTPError里有三个属性：code,reason,headers，即抓异常的时候可以获得code,reson，headers三个信息
    - code，返回 HTTP Status Code，即状态码，比如 404 网页不存在，500 服务器内部错误等等。
    - reason，同父类一样，返回错误的原因。
    - headers，返回 Request Headers。
  - 因为 URLError 是 HTTPError 的父类，所以我们可以先选择捕获子类的错误，再去捕获父类的错误
Url解析：
- urlparse()
  - 功能：对你传入的url地址按特定的协议类型进行拆分
  - 原型：urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)
    - urlstring：url地址参数
    - scheme：指定协议类型，如果url里面已经带了协议，再通过scheme指定的协议就不会生效
- urlunpars()：用于拼接
- urljoin()：也用做拼接
- urlencode()：可以将字典转换为url参数
参考内容：

2 random模块

功能：用于生成随机数
常见方法：
- random.random()：生成一个随机的浮点数，范围是在0.0~1.0之间
- random.uniform(a,b) ：用于生成一个指定范围内的随机符点数，两个参数其中一个是上限，一个是下限。如果a > b，则生成的随机数n: b <= n <= a。如果 a <b，则 a <= n <= b。
- random.randint(a, b)：用于生成一个指定范围内的整数。其中参数a是下限，参数b是上限，生成的随机数n: a <= n <= b
- random.randrange([start], stop[, step])：从指定范围内，按指定基数递增的集合中获取一个随机数。
- random.choice(sequence)：可以从任何序列，比如list列表中，选取一个随机的元素返回，可以用于字符串、列表、元组等。
- random.shuffle(x[, random])：原地指定seq序列，用于将一个列表中的元素打乱,即将列表内的元素随机排列。
- random.sample(sequence, k)：从指定序列中随机获取指定长度的片断并随机排列。注意：sample函数不会修改原有序列。

2 代码

它所做的事情就是用一个叫做 urllib 的图书馆来下载一列单词。

 1 import random                                      # 导入random模块
 2 from urllib.request import urlopen                 # 导入urllib库中的urlopen方法
 3 import sys                                         # 导入sys模块
 4 
 5 WORD_URL = "http://learncodethehardway.org/words.txt"       # 保存要访问的网页地址Url
 6 WORDS = []
 7 
 8 PHRASES = {
 9     "class %%%(%%%):":
10         "Make a class named %%% that is-a %%%.",
11     "class %%%(object):\n\tdef __init__(self,***)":
12         "class %%% has-a __init__ that takes self and *** params.",
13     "class %%%(object):\n\tdef ***(self,@@@)":
14         "class %%% has-a function *** that takes self and @@@ params.",
15     "*** = %%%()":
16             "Set *** to an instance of class %%%.",
17     "***.***(@@@)":
18             "From *** get the *** function,call it with params self @@@.",
19     "***.*** = '***'":
20             "From *** get the *** attribute and set it to '***'."
21 }                                                          # 存储类、函数、方法的定义或者调用格式
22 
23 # do they want to drill phrases first
24 if len(sys.argv) == 2 and sys.argv[1] == "english":        # 如果命令行参数有两个，且第二个参数是english，即在执行过程中命令行参数必须有两个，第一个是脚本文件名，第二个是english
25     PHRASE_FIRST = True                                    # PHRASE_FIRST值为True
26 else:
27     PHRASE_FIRST = False                                   # 否则PHRASE_FIRST值为False
28 
29 # load up the words from the website
30 for word in urlopen(WORD_URL).readlines():                 # 打开WORD_URL对应的网页地址，并返回有每行内容组成的列表（会保存在硬盘中），再通过for循环遍历得到的列表
31     WORDS.append(str(word.strip(),encoding="utf-8"))       # 去除每行的头尾空白后，将其转换成字符串，并采用utf-8格式编码，将编码后的内容添加到列表WORDS中
32 
33 def convert(snippet,phrase):                               # 将字典的键和值中的特殊符号和从WORDS_URL中读到的内容进行替换
34     class_names = [w.capitalize() for w in                 # 利用for循环遍历的到的随机列表，并将列表元素字符串中的第一个字母变大写，其它字母变小写
35                                                            # snippet.count()表示统计PHARSES字典的键里面某个字符串出现的次数，即为伪装一个类名或其它内容需要的单词的个数
36     random.sample(WORDS,snippet.count("%%%"))]             # 通过分片的方式从列表WORDS中得到长度为snippet.count("%%%")的列表，然后将分片得到的列表内部元素随机排列
37     other_names = random.sample(WORDS,snippet.count("***"))# 通过分片的方式从列表WORDS中得到长度为snippet.count("***")的列表，然后将分片得到的列表内部元素随机排列
38     results = []
39     param_names = []
40     
41     for i in range(0,snippet.count("@@@")):
42         param_count = random.randint(1,3)                  # 利用random.randint()函数产生一个1、2、3中的随机整数，控制分片后列表的长度
43         param_names.append(','.join(                       # 用","将分片后得到的列表的内容连接成字符串
44             random.sample(WORDS,param_count)))             # 利用param_count将WORDS列表分片，然后将分片得到的列表内部元素随机排列
45     
46     for sentence in snippet,phrase:                        # 用sentence遍历PHRASES字典的键和值
47         result = sentence[:]                               # 利用切片操作完成对sentence列表的复制
48         
49         # fake class names                                 # 伪装类名称
50         for word in class_names:
51             result = result.replace("%%%",word,1)          # 将result中的字符串"%%%"用class_names中得到的word代替，替换不超过一次
52         
53         # fake other names                                 # 伪装函数或方法等其它内容的名称
54         for word in other_names:
55             result = result.replace("***",word,1)          # 将result中的字符串"***"用other_names中得到的word代替，替换不超过一次
56         
57         # fake parameter lists                             # 伪装参数列表
58         for word in param_names:
59             result = result.replace("@@@",word,1)          # 将result中的字符串"@@@"用param_names中得到的word代替，替换不超过一次
60         
61         results.append(result)                             # 将result添加到列表results当中，并返回results列表的值
62     return results
63 
64 # keep going until they hit CTRL-D
65 try:                                                       # 异常
66     while True:
67         snippets = list(PHRASES.keys())                    # snippets是由PHRASES字典的键组成的列表
68         random.shuffle(snippets)                           # 将snippets列表中的元素顺序打乱
69         
70         for snippet in snippets:                           # 遍历snippets列表
71             phrase = PHRASES[snippet]                      # 通过键snippet对应的值
72             question,answer = convert(snippet,phrase)      # 调用convert函数，完成键值对中字符串的替换，并将函数返回值
73             if PHRASE_FIRST:                               # 
74                 question,answer = answer,question          # 将替换后的结果与问题换过来
75             
76             print(question)                                # 打印question，表示经过替换的PHRASES字典的键的内容
77             
78             input("> ")                                    # 可输入answer中提示的内容来查看对应的类或者方法的结构
79             print(f"ANSWER:{answer}\n\n")                  # 打印answer，即question键对应的经过替换的PHRASES字典的值的内容
80 except EOFError:
81     print("\nBye")

执行过程中，输入：

1 python oop_test.py english

有关字符串的内容，可参考：https://www.cnblogs.com/luoxun/p/13257881.html

posted @ 2020-07-29 19:53 洛兰123 阅读(235) 评论(0) 收藏举报

刷新页面返回顶部

骆寻

练习41：学着去说面向对象

公告