网络爬虫 - 随笔分类 - LOMOoO

‘一直播’视频及弹幕抓取及下载

摘要：简单研究一下一直播视频爬取。原理非常的简单，代码也比较容易。我所研究的是视频，也就是直播的回放，并不是实时的直播，但我简单看了一下，实时直播虽然要复杂一些但工作原理也差不多，由于没有需求我就没有写代码了。 1.视频是ts格式的视频文件流，比如0.ts 1.ts 2.ts 一直到视频结束的xxx. 阅读全文

posted @ 2017-08-30 10:57 LOMOoO 阅读(1710) 评论(0) 推荐(1)

python爬虫挂代理

摘要：以下是GET的方法，使用的代理接口网站是 http://www.xicidaili.com/nn/ 阅读全文

posted @ 2017-08-03 09:45 LOMOoO 阅读(381) 评论(0) 推荐(0)

scrapy初探（一）-斗鱼TV直播信息抓取

摘要：由于有相关需求，最近两天开始学了一下scrapy 这次我们就以爬取斗鱼直播间为例，我们准备爬取斗鱼所有的在线直播信息，包括1.主播昵称 2.直播领域 3.所在页面数 4.直播观看人数 5.直播间url 开始准备爬取的页面如图 url为：https://www.douyu.com/directory 阅读全文

posted @ 2017-07-27 17:16 LOMOoO 阅读(542) 评论(0) 推荐(0)

python网页爬虫小项目开发

摘要：这是我最近接的一个小项目，花了是整整四天多时间。任务是将http://www.examcoo.com/index/detail/mid/7网站下所有的试卷里的试题全部提取出来，首先按照题型进行分类，接着分析出题目的类型类别来源出题时间等等信息，最终将这些信息转化到excel表格中，excel 阅读全文

posted @ 2017-05-19 12:08 LOMOoO 阅读(553) 评论(0) 推荐(0)

网络爬虫之网站图片爬取-python实现

摘要：版本1.5 本次简单添加了四路多线程（由于我电脑CPU是四核的），速度飙升。本想试试xPath，但发现反倒是多此一举，故暂不使用 #-*- coding:utf-8 -*- import re,urllib,os,urllib2,chardet,requests,time from multipro 阅读全文

posted @ 2017-01-31 22:42 LOMOoO 阅读(1878) 评论(0) 推荐(0)

LOMOoO

随笔分类 - 网络爬虫

‘一直播’视频及弹幕抓取及下载

python爬虫挂代理

scrapy初探（一）-斗鱼TV直播信息抓取

python网页爬虫小项目开发

网络爬虫之网站图片爬取-python实现