随笔分类 -  网络爬虫与信息提取

摘要:本文主要是介绍从前程无忧上爬取岗位为数据分析的职位,主要是五个字段,职位名称、公司名称、工作地点、薪资和发布时间。同时把爬取下来的数据保存到mysql数据库中。 1 import requests 2 import pymysql 3 import re 4 5 6 # 连接数据库并创建数据表 7 阅读全文
posted @ 2019-11-11 20:55 小卫哥 阅读(918) 评论(0) 推荐(0)
摘要:本篇爬虫主要是为了从最好大学网站上爬取2019年各个大学的排名,以及把数据存储到mysql的过程: 1 import requests 2 from bs4 import BeautifulSoup 3 import bs4 4 import pymysql 5 6 # 连接数据库并且创建数据表 7 阅读全文
posted @ 2019-11-05 20:57 小卫哥 阅读(221) 评论(0) 推荐(0)
摘要:1 import requests 2 import bs4 3 4 #获取网页代码 5 def gethtml(url): 6 try: 7 response = requests.get(url) 8 response.raise_for_status() 9 response.encoding = response.apparent_encoding 10 return response.t 阅读全文
posted @ 2019-10-31 22:31 小卫哥 阅读(222) 评论(0) 推荐(0)
摘要:Scrapy爬虫框架 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。 爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。 Scrapy爬虫框架结构: 阅读全文
posted @ 2019-06-18 14:41 小卫哥 阅读(255) 评论(0) 推荐(0)