随笔分类 - Python爬虫
摘要:爬取音乐资源 实现 #python 的正则库 import re #python 的requests库 import requests import time #找到url的规律 #每一页的url # http://www.htqyy.com/top/hot # http://www.htqyy.c
阅读全文
摘要:requests库数据挖掘 requests安装和使用 下载安装:pip install requests #requests模块 import requests #发送请求 content:以二进制的形式获取网页的内容 response=requests.get("http://www.baidu
阅读全文
摘要:百度贴吧爬虫实现 GET请求 from urllib import request import urllib import time # https://tieba.baidu.com/f?kw=python&fr=ala0&tpl=5 #第一页 # https://tieba.baidu.com
阅读全文
摘要:有道翻译爬虫实现 POST请求: #有道翻译爬虫 from urllib import request import urllib import re #构造请求头信息 header={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64)
阅读全文
摘要:使用urllib库数据挖掘 第一个爬虫程序 import re from urllib import request #直接使用request中的方法 #import urllib.request #需使用urllib.request.方法 url=r"http://www.baidu.com/"
阅读全文
摘要:请求响应包头 请求报头(Request Headers) 1. Host (主机和端口号) Host:对应网址URL中的Web名称和端口号,用于指定被请求资源的Internet主机和端口号,通常属于URL的一部分。 2. Connection (链接类型) Connection:表示客户端与服务连接
阅读全文
摘要:认识爬虫 爬虫是什么: 爬取互联网上的信息 数据挖掘->数据清洗(得到有效的信息) 爬虫分类: 通用爬虫:是搜索引擎抓取系统(百度,谷歌)的重要组成,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份 抓取网页 -> 数据存储 -> 预处理 -> 提供检索,网站排名 聚焦爬虫:是"面
阅读全文