随笔 - 115  文章 - 0  评论 - 255  0

概述

不知从何时起,Python和爬虫就如初恋一般,情不知所起,一往而深,相信很多朋友学习Python,都是从爬虫开始,其实究其原因,不外两方面:其一Python对爬虫的支持度比较好,类库众多。其二Pyhton的语法简单,入门容易。所以两者形影相随,不离不弃,本文主要以一个简单的小例子,简述Python在爬虫方面的简单应用,仅供学习分享使用,如有不足之处,还请指正。

涉及知识点

本例主要爬取51job发布的工作职位,用到的知识点如下:

  • 开发环境及工具:主要用到Python3.7 ,IDE为PyCharm
  • requests类库:本类库封装了python的内置模块,主要用于网络的请求和获取数据,可以支持不同形式的请求。
  • BeautifulSoup库:主要用于解析获取的数据,包括Html,Xml,Json等不同的格式。
  • 数据持久化:主要是将内存中的数据,保存到数据库或者文件中。

爬虫的基本步骤

爬虫的基本步骤,如下图所示:

 

 

爬取目标

如有要爬取相关内容,首先要对爬取的目标进行分析,了解其目录结构,才能进行解析。本例主要爬取51job中的工作列表,如下所示:

核心源码

1.获取数据

定义一个函数get_data,用于发起请求并获取数据,如下所示:

headers中的User-Agent主要用于模拟浏览器,不然会被反爬虫程序屏蔽,http状态码为418,意思是被网站的反爬程序返回的。

encoding是要爬取的网站的编码为gbk,如果不加,会产生乱码,默认为utf-8

 1 def get_data(req_url):
 2     """获取数据"""
 3     headers = {
 4         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko',
 5         'Accept-Language': 'zh-Hans-CN, zh-Hans;q=0.5'
 6     }
 7     resp = requests.get(req_url, headers=headers)
 8     resp.encoding = 'gbk'  # 不加会产生中文乱码
 9     if resp.status_code == 200:
10         return resp.text
11     else:
12         return None

 

2.解析数据

定义一个函数parse_data,用于解析获取到的内容,如下所示:

 

采用BeautifulSoup,将返回的文本,解析成html对象,并获取对应的内容。本例主要获取工作的列表

 1 def parse_data(resp_html):
 2     """解析数据,并返回列表"""
 3     soup = BeautifulSoup(resp_html, features='html.parser')
 4     job_table = soup.find('div', attrs={'class': 'dw_table'})
 5     # print(job_table)
 6     job_list = job_table.find_all('div', attrs={'class': 'el'})
 7     # print(job_list)
 8     # 循环列表,去掉第一个title和最后一个
 9     res_list = []
10     for job in job_list[1: -1]:
11         job_name = job.find('p', attrs={'class': "t1"}).find('span').find('a').get_text()
12         job_name = job_name.replace('\r\n', '').strip()
13         job_company = job.find('span', attrs={'class': "t2"}).find('a').get_text()
14         job_addr = job.find('span', attrs={'class': "t3"}).get_text()
15         job_salary = job.find('span', attrs={'class': "t4"}).get_text()
16         job_time = job.find('span', attrs={'class': "t5"}).get_text()
17         # print('工作信息:', job_name, '---', job_company, '---', job_addr, '---', job_salary, '---', job_time)
18         res_item = {
19             '工作名称': job_name,
20             '公司': job_company,
21             '工作地址': job_addr,
22             '薪资水平': job_salary,
23             '发布时间': job_time
24         }
25         res_list.append(res_item)
26     return res_list

3.保存数据

定义一个函数save_data,用于将获取到的内容保存到json文件中,如下所示:

with函数 可以自动进行释放。因包含中文,所以json文件的编码为utf-8,否则会出现乱码

1 def save_data(res_list):
2     """保存数据"""
3     with open('jobs.json', 'w', encoding='utf-8') as f:
4         res_list_json = json.dumps(res_list, ensure_ascii=False)
5         f.write(res_list_json)

4.整体调用步骤

依次调用定义的三个函数,如下所示:

 1 if __name__ == '__main__':
 2     """如果是主程序自己调用"""
 3     req_url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,java,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='
 4     # 获取数据
 5     resp_html = get_data(req_url)
 6     # print(html)
 7     # 解析数据
 8     res_list = parse_data(resp_html)
 9     # 保存数据
10     save_data(res_list)

爬取结果展示

爬取的结果保存在jobs.json文件中,如下所示:

  1 [
  2   {
  3     "工作名称": "Java架构师",
  4     "公司": "深圳市钻木信息技术有限公司",
  5     "工作地址": "深圳-福田区",
  6     "薪资水平": "1.8-3万/月",
  7     "发布时间": "06-13"
  8   },
  9   {
 10     "工作名称": "Java实习生 6k起",
 11     "公司": "深圳市智玩创新科技有限公司",
 12     "工作地址": "深圳-福田区",
 13     "薪资水平": "6-8千/月",
 14     "发布时间": "06-13"
 15   },
 16   {
 17     "工作名称": "Java实习生6k起",
 18     "公司": "深圳市康姆达科技有限公司",
 19     "工作地址": "深圳-南山区",
 20     "薪资水平": "6-8千/月",
 21     "发布时间": "06-13"
 22   },
 23   {
 24     "工作名称": "Java开发工程师",
 25     "公司": "深圳市网新新思软件有限公司",
 26     "工作地址": "深圳-南山区",
 27     "薪资水平": "1.5-1.7万/月",
 28     "发布时间": "06-13"
 29   },
 30   {
 31     "工作名称": "Java开发工程师",
 32     "公司": "深圳市睿服科技有限公司",
 33     "工作地址": "深圳-福田区",
 34     "薪资水平": "1.3-1.7万/月",
 35     "发布时间": "06-13"
 36   },
 37   {
 38     "工作名称": "Java开发经理",
 39     "公司": "深圳市聚惠企业登记代理有限公司",
 40     "工作地址": "深圳-龙华新区",
 41     "薪资水平": "1-3万/月",
 42     "发布时间": "06-13"
 43   },
 44   {
 45     "工作名称": "高级JAVA",
 46     "公司": "深圳易加油信息科技有限公司",
 47     "工作地址": "深圳-南山区",
 48     "薪资水平": "1.5-2.1万/月",
 49     "发布时间": "06-13"
 50   },
 51   {
 52     "工作名称": "Java高级开发工程师",
 53     "公司": "深圳市绿联科技有限公司",
 54     "工作地址": "深圳-龙华新区",
 55     "薪资水平": "2-3万/月",
 56     "发布时间": "06-13"
 57   },
 58   {
 59     "工作名称": "Java开发工程师",
 60     "公司": "深圳市博悦科创科技有限公司",
 61     "工作地址": "深圳-南山区",
 62     "薪资水平": "1-1.5万/月",
 63     "发布时间": "06-13"
 64   },
 65   {
 66     "工作名称": "Java高级开发工程师",
 67     "公司": "易普森智慧健康科技(深圳)有限公...",
 68     "工作地址": "深圳",
 69     "薪资水平": "1.5-2.5万/月",
 70     "发布时间": "06-13"
 71   },
 72   {
 73     "工作名称": "Java开发工程师",
 74     "公司": "深圳易世通达科技有限公司",
 75     "工作地址": "深圳-南山区",
 76     "薪资水平": "1.2-1.8万/月",
 77     "发布时间": "06-13"
 78   },
 79   {
 80     "工作名称": "Java开发工程师",
 81     "公司": "苏州今融加科技有限公司",
 82     "工作地址": "深圳-福田区",
 83     "薪资水平": "1.5-2万/月",
 84     "发布时间": "06-13"
 85   },
 86   {
 87     "工作名称": "Java后端开发工程师",
 88     "公司": "深圳市长隆科技有限公司",
 89     "工作地址": "深圳-龙岗区",
 90     "薪资水平": "1.5-2万/月",
 91     "发布时间": "06-13"
 92   },
 93   {
 94     "工作名称": "Java开发工程师",
 95     "公司": "深圳市元诺智能系统有限公司",
 96     "工作地址": "深圳-龙华新区",
 97     "薪资水平": "1-1.5万/月",
 98     "发布时间": "06-13"
 99   },
100   {
101     "工作名称": "java 有物流类经验",
102     "公司": "深圳市欧恩德技术有限公司",
103     "工作地址": "深圳-罗湖区",
104     "薪资水平": "0.8-1.1万/月",
105     "发布时间": "06-13"
106   },
107   {
108     "工作名称": "Java开发工程师-2020校园招聘",
109     "公司": "金蝶软件(中国)有限公司",
110     "工作地址": "深圳-南山区",
111     "薪资水平": "0.8-1.6万/月",
112     "发布时间": "06-13"
113   },
114   {
115     "工作名称": "Java高级开发工程师",
116     "公司": "丰疆智能科技股份有限公司",
117     "工作地址": "深圳-南山区",
118     "薪资水平": "2.5-3万/月",
119     "发布时间": "06-13"
120   },
121   {
122     "工作名称": "JAVA软件开发工程师",
123     "公司": "深圳市吉星时代科技有限公司",
124     "工作地址": "深圳-龙岗区",
125     "薪资水平": "2-3万/月",
126     "发布时间": "06-13"
127   },
128   {
129     "工作名称": "JAVA 高级软件工程师",
130     "公司": "相通网络技术有限公司",
131     "工作地址": "深圳-福田区",
132     "薪资水平": "1.5-3万/月",
133     "发布时间": "06-13"
134   },
135   {
136     "工作名称": "JAVA开发工程师(接受应届生)",
137     "公司": "深圳市智岩科技有限公司",
138     "工作地址": "深圳-南山区",
139     "薪资水平": "0.8-1万/月",
140     "发布时间": "06-13"
141   },
142   {
143     "工作名称": "Java后台开发工程师",
144     "公司": "深圳市炬驰科技发展有限公司",
145     "工作地址": "深圳",
146     "薪资水平": "1-1.5万/月",
147     "发布时间": "06-13"
148   },
149   {
150     "工作名称": "Java开发工程师",
151     "公司": "深圳市韶音科技有限公司",
152     "工作地址": "深圳-宝安区",
153     "薪资水平": "0.8-1万/月",
154     "发布时间": "06-13"
155   },
156   {
157     "工作名称": "JAVA 开发工程师",
158     "公司": "深圳市优博讯科技股份有限公司",
159     "工作地址": "深圳-南山区",
160     "薪资水平": "1-1.5万/月",
161     "发布时间": "06-13"
162   },
163   {
164     "工作名称": "Java开发工程师",
165     "公司": "深圳市有豆科技有限公司",
166     "工作地址": "深圳-宝安区",
167     "薪资水平": "1.8-3万/月",
168     "发布时间": "06-13"
169   },
170   {
171     "工作名称": "Saas平台架构师(Java方向)",
172     "公司": "深圳市智布互联纺织科技有限公司",
173     "工作地址": "深圳-南山区",
174     "薪资水平": "1.7-2.5万/月",
175     "发布时间": "06-13"
176   },
177   {
178     "工作名称": "Java开发实习生",
179     "公司": "云软科技",
180     "工作地址": "深圳-宝安区",
181     "薪资水平": "6-9千/月",
182     "发布时间": "06-13"
183   },
184   {
185     "工作名称": "Java高级开发工程师",
186     "公司": "深圳市阿尔法智汇科技有限公司",
187     "工作地址": "深圳-宝安区",
188     "薪资水平": "2-4万/月",
189     "发布时间": "06-13"
190   },
191   {
192     "工作名称": "Java 全栈开发工程师",
193     "公司": "深圳市杰纳斯科技有限公司",
194     "工作地址": "深圳-宝安区",
195     "薪资水平": "1-3.5万/月",
196     "发布时间": "06-13"
197   },
198   {
199     "工作名称": "中高级java工程师",
200     "公司": "北京联创智融信息技术有限公司",
201     "工作地址": "深圳-福田区",
202     "薪资水平": "1.3-1.8万/月",
203     "发布时间": "06-13"
204   },
205   {
206     "工作名称": "Java开发工程师",
207     "公司": "得实信息科技(深圳)有限公司",
208     "工作地址": "深圳-南山区",
209     "薪资水平": "0.6-1万/月",
210     "发布时间": "06-13"
211   },
212   {
213     "工作名称": "Java开发工程师",
214     "公司": "深圳市联创科技集团有限公司",
215     "工作地址": "深圳-龙岗区",
216     "薪资水平": "1-1.5万/月",
217     "发布时间": "06-13"
218   },
219   {
220     "工作名称": "中级JAVA(J13824)",
221     "公司": "银雁科技服务集团股份有限公司",
222     "工作地址": "深圳-福田区",
223     "薪资水平": "1-1.5万/月",
224     "发布时间": "06-13"
225   },
226   {
227     "工作名称": "java工程师",
228     "公司": "深圳市安思疆科技有限公司",
229     "工作地址": "深圳-南山区",
230     "薪资水平": "0.8-1.6万/月",
231     "发布时间": "06-13"
232   },
233   {
234     "工作名称": "JAVA 高级开发工程师",
235     "公司": "汇才保险代理(深圳)有限公司",
236     "工作地址": "深圳-罗湖区",
237     "薪资水平": "1.5-2万/月",
238     "发布时间": "06-13"
239   },
240   {
241     "工作名称": "Java高级开发工程师(直连)",
242     "公司": "深圳市天泰国际航空旅行社有限公司...",
243     "工作地址": "深圳",
244     "薪资水平": "2-4万/月",
245     "发布时间": "06-13"
246   },
247   {
248     "工作名称": "JAVA工程师",
249     "公司": "深圳市开度贸易有限公司",
250     "工作地址": "深圳-南山区",
251     "薪资水平": "0.8-1.2万/月",
252     "发布时间": "06-13"
253   },
254   {
255     "工作名称": "后台开发Leader(JAVA方向)",
256     "公司": "深圳金世纪保险经纪有限公司",
257     "工作地址": "深圳-福田区",
258     "薪资水平": "3-4万/月",
259     "发布时间": "06-13"
260   },
261   {
262     "工作名称": "Java开发工程师",
263     "公司": "深圳市中深力人力资源管理有限公司...",
264     "工作地址": "深圳-南山区",
265     "薪资水平": "1-1.5万/月",
266     "发布时间": "06-13"
267   },
268   {
269     "工作名称": "Java高级开发工程师",
270     "公司": "研祥高科技控股集团有限公司",
271     "工作地址": "深圳-光明新区",
272     "薪资水平": "0.9-1.8万/月",
273     "发布时间": "06-13"
274   },
275   {
276     "工作名称": "Java(证券不加班)",
277     "公司": "上海华腾软件系统有限公司",
278     "工作地址": "深圳-福田区",
279     "薪资水平": "1.8-2.2万/月",
280     "发布时间": "06-13"
281   },
282   {
283     "工作名称": "Java高级开发工程师",
284     "公司": "深圳大美商业地产管理有限公司",
285     "工作地址": "深圳-福田区",
286     "薪资水平": "1.5-2万/月",
287     "发布时间": "06-13"
288   },
289   {
290     "工作名称": "资深/高级Java工程师",
291     "公司": "未来穿戴(深圳)有限公司",
292     "工作地址": "深圳-南山区",
293     "薪资水平": "3-4万/月",
294     "发布时间": "06-13"
295   },
296   {
297     "工作名称": "Java高级开发工程师",
298     "公司": "深圳市太阳星通信科技有限公司",
299     "工作地址": "深圳-南山区",
300     "薪资水平": "0.8-1.5万/月",
301     "发布时间": "06-13"
302   },
303   {
304     "工作名称": "Java高级开发工程师",
305     "公司": "深圳市蓝鹰立德软件咨询有限公司",
306     "工作地址": "深圳-南山区",
307     "薪资水平": "1.5-1.8万/月",
308     "发布时间": "06-13"
309   },
310   {
311     "工作名称": "JAVA(高级、架构)",
312     "公司": "深圳市几米物联有限公司",
313     "工作地址": "深圳-宝安区",
314     "薪资水平": "2.2-3.2万/月",
315     "发布时间": "06-13"
316   },
317   {
318     "工作名称": "JAVA开发工程师",
319     "公司": "江苏康尚生物医疗科技有限公司",
320     "工作地址": "深圳-宝安区",
321     "薪资水平": "1-1.5万/月",
322     "发布时间": "06-13"
323   },
324   {
325     "工作名称": "java架构师",
326     "公司": "深圳市泓齐网络科技有限公司",
327     "工作地址": "深圳",
328     "薪资水平": "1.5-1.8万/月",
329     "发布时间": "06-13"
330   },
331   {
332     "工作名称": "Java开发工程师",
333     "公司": "深圳市智璟科技有限公司",
334     "工作地址": "深圳-福田区",
335     "薪资水平": "0.9-1.5万/月",
336     "发布时间": "06-13"
337   },
338   {
339     "工作名称": "Java开发工程师",
340     "公司": "上海舟恩信息技术有限公司",
341     "工作地址": "深圳-南山区",
342     "薪资水平": "1.4-1.9万/月",
343     "发布时间": "06-13"
344   }
345 ]
View Code

进一步思考

 

本例可以进一步优化的空间,如下所示:

  • 本次爬虫只是单次爬取,数据量相对小,如果要爬取大量数据的时候,则需要使用多线程相关的知识。
  • 基础的爬虫,只能爬取静态渲染的内容,如果是异步动态渲染的数据,如何爬取呢?
  • 将爬取的结果保存到数据库如何操作呢?

备注

芙蓉楼送辛渐
[唐]王昌龄
寒雨连江夜入吴,平明送客楚山孤。
洛阳亲友如相问,一片冰心在玉壶。

posted on 2020-06-13 18:55  Alan.hsiang  阅读(209)  评论(0编辑  收藏