setting.py (用于定义各种变量)
1 from bs4 import BeautifulSoup
2 import urllib.request
3 import urllib.parse
4 import sqlite3
5 import func
6 import time
7 import re
8 import os
9
10 # =============================== headers数据包 ===============================
11 head_package = {}
12 head_package['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
13
14
15 # =============================== 需要爬取的文件名 ===============================
16 file_name = 'athlete4.txt'
17
18
19 # =============================== 正则表达式 ===============================
20 re_link = re.compile(r'<a href="(.*?)"') # 网页
21
22 re_name1 = re.compile(r'<h1>(.+)</h1>') # 姓名与姓名后的超简介
23 re_name2 = re.compile(r'<h2>(.+)</h2>')
24
25 # 查找网页文本
26 re_summary = re.compile(r'<.*?>')
27 re_remove = re.compile(r'\[\d\]|\[|\]|\n\b')
28
29 # 查找类与姓名
30 re_txtFind_class = re.compile(r'class=(.+)\n')
31 re_txtFind_name = re.compile(r'name=(.+)\n')
32
33 re_summary_img = re.compile(r'<img src="(.+?)"') # 查找图片链接
34
35
36 # =============================== sql语句 ===============================
37 sql_createTable = '''
38 create table if not exists athlete_info(
39 id integer primary key autoincrement not null,
40 name1 text,
41 name2 text,
42 instruction text,
43 baike_url text,
44 img_url text
45 )
46 '''