爬虫实战 - 利用百度百科爬取运动员的信息(setting.py)

setting.py (用于定义各种变量)

 1 from bs4 import BeautifulSoup
 2 import urllib.request
 3 import urllib.parse
 4 import sqlite3
 5 import func
 6 import time
 7 import re
 8 import os
 9 
10 # =============================== headers数据包 ===============================
11 head_package = {}
12 head_package['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
13 
14 
15 # =============================== 需要爬取的文件名 ===============================
16 file_name = 'athlete4.txt'
17 
18 
19 # =============================== 正则表达式 ===============================
20 re_link = re.compile(r'<a href="(.*?)"')  # 网页
21 
22 re_name1 = re.compile(r'<h1>(.+)</h1>')  # 姓名与姓名后的超简介
23 re_name2 = re.compile(r'<h2>(.+)</h2>')
24 
25 # 查找网页文本
26 re_summary = re.compile(r'<.*?>')
27 re_remove = re.compile(r'\[\d\]|\[|\]|\n\b')
28 
29 # 查找类与姓名
30 re_txtFind_class = re.compile(r'class=(.+)\n')
31 re_txtFind_name = re.compile(r'name=(.+)\n')
32 
33 re_summary_img = re.compile(r'<img src="(.+?)"')  # 查找图片链接
34 
35 
36 # =============================== sql语句 ===============================
37 sql_createTable = '''
38 create table if not exists athlete_info(
39 id integer primary key autoincrement not null,
40 name1 text,
41 name2 text,
42 instruction text,
43 baike_url text,
44 img_url text
45 )
46 '''

 

posted @ 2021-04-23 16:36  vosoland  阅读(105)  评论(0)    收藏  举报