随笔分类 -  Python爬虫

摘要:爬虫实践 排行榜小说批量下载 一、目标 排行榜的地址:http://www.qu.la/paihangbang/ 注:文末有福利! 找到各类排行旁的的每一部小说的名字,和在该网站的链接。 二、观察网页的结构 很容易就能发现,每一个分类都是包裹在: <div class="index_toplist 阅读全文
posted @ 2018-04-04 09:23 Lovebugs.cn 阅读(1150) 评论(2) 推荐(2)
摘要:反爬虫 的技术大概分为四个种类: 注:文末有福利! 一、通过User-Agent来控制访问: 无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requests headers: 这里面的大多数的字段都是浏览器向服务器”表明身份“用的对于爬虫程序 阅读全文
posted @ 2018-04-01 17:19 Lovebugs.cn 阅读(9986) 评论(8) 推荐(4)
摘要:由于要抓取的是悦音台mv的排行榜,这个排行榜是实时更新的,如果要求不停地抓取,这将有可能导致悦音台官方采用反爬虫的技术将ip给封掉。所以这里要应用一些反爬虫相关知识。 目标网址:http://vchart.yinyuetai.com/vchart/trends?area=ML 网站结构: 上面红线圈 阅读全文
posted @ 2017-07-27 14:30 Lovebugs.cn 阅读(627) 评论(0) 推荐(0)
摘要:反爬虫 的技术大概分为四个种类: 注:文末有福利! 一、通过User-Agent来控制访问: 无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requests headers: 这里面的大多数的字段都是浏览器向服务器”表明身份“用的对于爬虫程序 阅读全文
posted @ 2017-07-27 11:25 Lovebugs.cn 阅读(2452) 评论(7) 推荐(5)
摘要:1.目标网址:http://dianying.2345.com/top/ 需要找到的信息:电影的名字,主演,简介,和标题图片 2.查看页面结构: 容易看到,需要的主题部分,都被包裹在‘<ul>“列表标签里, 那么简单的用bs4库找到 "<ul>" tag并迭代取出每一条“<li>”tag, 最后再从 阅读全文
posted @ 2017-07-27 10:53 Lovebugs.cn 阅读(427) 评论(0) 推荐(0)
摘要:一、目标 排行榜的地址:http://www.qu.la/paihangbang/ 找到各类排行旁的的每一部小说的名字,和在该网站的链接。 二、观察网页的结构 很容易就能发现,每一个分类都是包裹在: 之中,这种条理清晰的网站,大大方便了爬虫的编写。 在当前页面找到所有小说的连接,并保存在列表即可。 阅读全文
posted @ 2017-07-26 20:07 Lovebugs.cn 阅读(1634) 评论(3) 推荐(0)
摘要:贴吧地址 : http://tieba.baidu.com/f?kw=%E7%94%9F%E6%B4%BB%E5%A4%A7%E7%88%86%E7%82%B8&ie=utf-8 Python版本 : 3.6浏览器: Chrome 一、目标: 二、分析: 地址中这些都是中文字符,%E7%94%9F% 阅读全文
posted @ 2017-07-26 15:55 Lovebugs.cn 阅读(818) 评论(1) 推荐(0)
摘要:爬取百度百科Python词条以及相关的1000个页面数据 阅读全文
posted @ 2017-07-12 20:12 Lovebugs.cn 阅读(464) 评论(0) 推荐(0)
摘要:一 、简单爬虫架构: 爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器” 网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器” 网页解析器:解析网页可解析出 ①有价值的数据 阅读全文
posted @ 2017-07-06 14:46 Lovebugs.cn 阅读(1143) 评论(1) 推荐(3)