爬虫作业

请用requests库的get()函数访问如下一个网站20次,打印返回状态,text()内容,计算text()属性和content属性所返回网页内容的长度。

 1 import requests
 2 url="https://www.baidu.com/"
 3 def gethtml(url):
 4     try:
 5         r=requests.get(url)
 6         r.raise_for_status()
 7         r.encoding="utf-8"
 8         print("text内容:",r.text)
 9     except:
10         return "Error!"
11 for i in range(20):
12     print(gethtml(url))

 

 1 import re
 2 from bs4 import BeautifulSoup
 3 soup=BeautifulSoup('''
 4 <!DOCTYPE html>
 5 <html>
 6 <head>
 7 <meta charset="utf-8">
 8 <title>菜鸟教程(runoob.com)</title>
 9 </head>
10 <body>
11 <h1>我的第一个标题</h1>
12 <p id="first">我的第一个段落。</p>
13 </body>
14 <table border="1">
15 <tr>
16 <td>row 1, cell 1</td>
17 <td>row 1, cell 2</td>
18 </tr>
19 <tr>
20 <td>row 2, cell 1</td>
21 <td>row 2, cell 2</td>
22 </tr>
23 </table>
24 </html>
25 ''')
26 print ("head标签:",soup.head,"学号:12")
27 print ("获取id为first的标签对象:",soup.find_all(id="first"))
28 print ("获取并打印html页面中的中文字符",re.findall(u'[\u1100-\uFFFDh]+?',soup.text))

 

posted @ 2020-12-14 21:28  17wzl  阅读(51)  评论(0)    收藏  举报