摘要:        
python scrapy版 极客学院爬虫V21 基本技术 使用scrapy2 这个爬虫的难点是 Request中的headers和cookies 尝试过好多次才成功(模拟登录),否则只能抓免费课程3文件树如下│ jike.json 存储json文件│ run.py ...    阅读全文
posted @ 2015-09-07 16:15
yinsolence
阅读(1397)
评论(1)
推荐(0)
        
            
        
        
摘要:        
定向爬取极客学院视频,原本只有年费VIP只能下载,经过分析,只要找个免费体验VIP即可爬取所有视频 
涉及的基本技术:python xpath 正则 com 
通过python调用迅雷从组件,实现自动创建文件夹和自动添加批量下载任务,前提要成功安装迅雷和迅雷组件
思路:path路径爬取所有标签-》搜索页面所有该课程分类-》课程页面获取课程明细-》正则分析视频地址
极客学院的一直在改进,可能需要自己改    阅读全文
posted @ 2015-09-07 09:51
yinsolence
阅读(1554)
评论(4)
推荐(3)
        
                    
                
浙公网安备 33010602011771号