摘要:
python本身也是通过向浏览器发送请求获取数据的,存在请求头,如果不进行伪装,会被对方服务器识别从而爬取失败 def askURL(url): data = bytes(urllib.parse.urlencode({ "setAction": "classroomQuery", "PageAct 阅读全文
posted @ 2022-04-21 14:47
山海自有归期
阅读(532)
评论(0)
推荐(0)
摘要:
from bs4 import BeautifulSoup #网页解析获取数据 import re#正则表达式。进行文字匹配 import urllib.request,urllib.error#制定URL ,获取网页数据 import xlwt#进行excle操作 import sqlite3#进 阅读全文
posted @ 2022-04-21 14:42
山海自有归期
阅读(57)
评论(0)
推荐(0)
摘要:
一、什么是爬虫 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。 二、Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 调度器:相当于一台电脑的CPU,主要负责调度URL管理器、 阅读全文
posted @ 2022-04-21 14:41
山海自有归期
阅读(306)
评论(0)
推荐(0)
摘要:
通过python爬取教务系统课表 # coding=utf-8 from bs4 import BeautifulSoup #网页解析获取数据 import re#正则表达式。进行文字匹配 import urllib.request,urllib.error#制定URL ,获取网页数据 import 阅读全文
posted @ 2022-04-21 14:38
山海自有归期
阅读(333)
评论(0)
推荐(0)

浙公网安备 33010602011771号