随笔分类 -  网络爬虫

摘要:代码如下: import requests from bs4 import BeautifulSoup import News.IO as io url = "http://www.qxkp.net/zhfy/" # 设置头 cookie = { "cityPy": "UM_distinctid=1 阅读全文
posted @ 2021-03-15 19:54 雾霾王者 阅读(168) 评论(0) 推荐(0)
摘要:结果: 代码如下: import requests from bs4 import BeautifulSoup from Weather import IO as ios class item: def __init__(self): self.date = list() # 日期 self.max 阅读全文
posted @ 2021-01-02 21:56 雾霾王者 阅读(2119) 评论(0) 推荐(0)
摘要:#!/usr/bin/env python # -*- coding: utf-8 -*- # @File : HtmlParser.py # @Author: 赵路仓 # @Date : 2020/3/17 # @Desc : # @Contact : 398333404@qq.com impor 阅读全文
posted @ 2020-05-02 08:57 雾霾王者 阅读(208) 评论(0) 推荐(0)
摘要:1.源代码 #!/usr/bin/env python # -*- coding: utf-8 -*- # @File : HtmlParser.py # @Author: 赵路仓 # @Date : 2020/3/27 # @Desc : # @Contact : 398333404@qq.com 阅读全文
posted @ 2020-04-25 08:10 雾霾王者 阅读(674) 评论(0) 推荐(0)
摘要:一、检查 首先进入该网站的https://www.gamersky.com/robots.txt页面 给出提示: 弹出错误页面 注: 网络爬虫:自动或人工识别robots.txt,再进行内容爬取 约束性:robots协议建议但非约束性,不遵守可能存在法律风险 如果一个网站不设置robots协议,说明 阅读全文
posted @ 2020-02-28 17:08 雾霾王者 阅读(853) 评论(0) 推荐(0)
摘要:首先进入该网站的https://www.51job.com/robots.txt页面 给出提示: 1 找不到该页 File not found 2 3 您要查看的页已删除,或已改名,或暂时不可用。 4 5 请尝试以下操作: 6 如果您已经在地址栏中输入该网页的地址,请确认其拼写正确。 7 打开 ww 阅读全文
posted @ 2020-02-28 14:18 雾霾王者 阅读(782) 评论(0) 推荐(0)