------------只要够努力,人生最坏的结局不过是大器晚成!!!
     
    
    
		
    
        
        
摘要:        
https://www.cnblogs.com/alamZ/p/7414020.html 课件内容    
阅读全文
posted @ 2018-07-17 20:03
ystraw
阅读(231)
推荐(0)
            
        
        
摘要:        
爬取糗事百科的段子: 1.用xpath分析首要爬去内容的表达式; 2.用发起请求,获得原码; 3.用xpath分析源码,提取有用信息; 4.由python格式转为json格式,写入文件 效果: 不 不以json格式存储: 效果:    
阅读全文
posted @ 2018-07-17 12:44
ystraw
阅读(186)
推荐(0)
 
		
    
        
        
摘要:        
用request先得到到session对象,用其去放送请求,会自动保存cookie。 模拟有验证码的登入步骤: 1.发送请求登入页面; 2.分析验证码的地址,以及要将登入请求发往的地址(可以先输入错的密码登入一次,抓包获取发送地址) 3.将返回的验证码存入文件,读取验证码,手动输入; 4.整合所有数    
阅读全文
posted @ 2018-07-16 21:31
ystraw
阅读(524)
推荐(0)
            
        
        
摘要:        
http://poj.org/problem?id=1789 Truck History Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 32474 Accepted: 12626 Description Advanced Car    
阅读全文
posted @ 2018-07-16 16:36
ystraw
阅读(150)
推荐(0)
            
        
        
摘要:        
http://poj.org/problem?id=1094 Sorting It All Out Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 38379 Accepted: 13534 Description An asce    
阅读全文
posted @ 2018-07-16 10:22
ystraw
阅读(134)
推荐(0)
 
		
    
        
        
摘要:        
通过xpath分析页面,爬取页面中的图片:    
阅读全文
posted @ 2018-07-15 13:34
ystraw
阅读(241)
推荐(0)
            
        
        
摘要:        
1.可用easy_install安装方式,也可以用pip的方式: pip install lxml 2.安装完毕:写代码导包时提示错误,这是需要配置一下eclipse,是因为它没有更新导入的包,所以需要将原来的删了, 重新导入:    
阅读全文
posted @ 2018-07-15 10:47
ystraw
阅读(147)
推荐(0)
            
        
        
摘要:        
爬取内涵段子,使用正则进行简单处理:    
阅读全文
posted @ 2018-07-15 08:56
ystraw
阅读(259)
推荐(0)
 
		
    
        
        
        posted @ 2018-07-14 19:34
ystraw
阅读(185)
推荐(0)
            
        
        
摘要:        
ProxyHandler处理器(代理设置) 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。 所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁    
阅读全文
posted @ 2018-07-14 13:09
ystraw
阅读(630)
推荐(0)