随笔分类 -  网络爬虫

摘要:简单研究一下一直播视频爬取。 原理非常的简单,代码也比较容易。 我所研究的是视频,也就是直播的回放,并不是实时的直播,但我简单看了一下,实时直播虽然要复杂一些但工作原理也差不多,由于没有需求我就没有写代码了。 1.视频是ts格式的视频文件流,比如0.ts 1.ts 2.ts 一直到视频结束的xxx. 阅读全文

posted @ 2017-08-30 10:57 LOMOoO 阅读(1705) 评论(0) 推荐(1)

摘要:以下是GET的方法,使用的代理接口网站是 http://www.xicidaili.com/nn/ 阅读全文

posted @ 2017-08-03 09:45 LOMOoO 阅读(378) 评论(0) 推荐(0)

摘要:由于有相关需求,最近两天开始学了一下scrapy 这次我们就以爬取斗鱼直播间为例,我们准备爬取斗鱼所有的在线直播信息, 包括1.主播昵称 2.直播领域 3.所在页面数 4.直播观看人数 5.直播间url 开始准备爬取的页面如图 url为:https://www.douyu.com/directory 阅读全文

posted @ 2017-07-27 17:16 LOMOoO 阅读(536) 评论(0) 推荐(0)

摘要:这是我最近接的一个小项目,花了是整整四天多时间。 任务是将http://www.examcoo.com/index/detail/mid/7网站下所有的试卷里的试题全部提取出来,首先按照题型进行分类,接着分析出题目的类型 类别 来源 出题时间等等信息,最终将这些信息转化到excel表格中,excel 阅读全文

posted @ 2017-05-19 12:08 LOMOoO 阅读(551) 评论(0) 推荐(0)

摘要:版本1.5 本次简单添加了四路多线程(由于我电脑CPU是四核的),速度飙升。本想试试xPath,但发现反倒是多此一举,故暂不使用 #-*- coding:utf-8 -*- import re,urllib,os,urllib2,chardet,requests,time from multipro 阅读全文

posted @ 2017-01-31 22:42 LOMOoO 阅读(1874) 评论(0) 推荐(0)