随笔分类 - 爬虫(For Python)
摘要:第一步打开网易云音乐,随便找到一首歌,播放,复制网址的ID, 例如:杨钰莹的心雨,网址是: http://music.163.com/#/song?id=317151 很明显,ID是317151 那么,这首歌的真实地址就是: http://music.163.com/song/media/outer
阅读全文
摘要:写在前面 一开始现操期中课程设计想要做一个可以共享各大音乐平台的音乐播放器,而这些音乐平台都没有提供API接口(很正常ヾ(・ε・`*) ),所以研究了一下酷狗音乐、QQ音乐、网易云音乐的网页版,通过网页版来获取数据;然而最后因为时间的关系课程设计只使用了网易云音乐,emm。。。期中课程设计是团队合
阅读全文
摘要:爬虫的时候默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,这样就不怕爬取大量数据的时候突然被封啦。本文IP来自国内高匿免
阅读全文
摘要:# -*- coding: UTF-8 -*- try: from Tkinter import * from Tkinter import tkMessageBox as messagebox except ImportError as e: from tkinter import * from
阅读全文
posted @ 2020-01-04 16:58
NAVYSUMMER
摘要:# -*- coding: UTF-8 -*- import requests,re,time url = 'https://www.zabbix.com/documentation/3.4/zh/manual' base_url = 'https://www.zabbix.com/documentation/3.4/' seconds = 1 err_url = [] def get_urls...
阅读全文
摘要:一、什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit
阅读全文
摘要:一、串行爬虫 我们之前使用的爬虫方式,都是一个页面接着一个页面下载,也就是使用串行的方式进行爬虫。但是显然这种方式下载的速度是非常的慢的,特别是当我们需要下载大量页面的时候这个问题就会变得更加的突出。所以本节内,就学习如何进行多线程和多进程的并行爬虫。 二、多线程爬虫 我们在使用多线程进行爬虫的时候
阅读全文
摘要:Python 缓存与持久化 缓存算是持久化的一个子集,但是缓存又有自己的过期策略和缓存级别,而持久化基本无过期策略之说。缓存与持久化并不是 Python 爬虫特有的,其他语言都有涉及,所以我们下面既然说要把缓存和持久化放在一起说是建立在持久化缓存的基础上,因为多级缓存策略的内存缓存等不在我们这篇的讨
阅读全文
摘要:方法一:正则表达式 方法二:Beautiful Soup 安装: pip install beautifulsoup4 方发三:Lxml 安装 pip install lxml
阅读全文
摘要:目前,我们的爬虫会跟踪所有之前没有访问过的链接。但是,一些网站会动态生成页面内容,这样就会出现无限多的网页。比如,网站有一个在线日历功能,提供了可以访问下个月和下一年的链接,那么下个月的页面中同样会包含访问再下个月的链接,这样页面就会无止境地链接下去,这种情况被称为爬虫陷阱。 想要避免陷入爬虫陷阱,
阅读全文
摘要:工具: python+urllib2 用法: 访问外国网站的代理方案
阅读全文
摘要:工具: python+urllib/urllib2/urllib3.... 安装: pip install urllib/urllib2/urllib3 urllib2用法:
阅读全文
摘要:工具: python+python-whois 安装: 用法:
阅读全文
摘要:工具: python+builtwith 安装命令: pip install builtwith 用法:
阅读全文
摘要:Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots E
阅读全文

浙公网安备 33010602011771号