python抓取简书用户的文章
众所周知,简书上面的好文章还是很多的。可是,有些时候在没网的情况下我们看不了简书.....
这能难倒我们程序员? 正好最近看了点python 索性用python写个爬虫抓点文章保存起来,以备不时之需。
那么做什么事情总得有个思路吧。我的思路就是:先获得用户页面的html代码,然后找到文章的链接,把这些链接存到list中。然后针对每个文章链接,抓取p标签下的文字。最后写入到txt。
本来想在windows上写的 ,但是安装lxml时出说要安装vs2010,总之麻烦不断。最后我实在ubuntu上写的。还是 ubuntu方便啊
安装lxml也很方便 pip install lxml
安装beautufulsoup4 pip install beautifulsoup4
#coding=utf-8 import requests from bs4 import BeautifulSoup import os import re headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"} list1=[] #存储链接 def getUrl(url):#获得简书用户的文章链接 start_html = requests.get(url, headers=headers) #获得网页 Soup=BeautifulSoup(start_html.text,'lxml') #调用bs4 p_list=Soup.find_all("h4")# 找出所有h4标签里面的内容 Title=str(Soup.find('title'))#得到标题 #Tlen=len(Title) Title=Title[7:len(Title)-8]#去掉标签等乱七八找的东西 #写入txt for p in p_list: pstr=str(p) ple=len(pstr) pos=pstr.find('href')+6; list1.append('http://www.jianshu.com'+pstr[pos:pos+15]) return Title def getTxt(url): #获得链接里面的文本 start_html = requests.get(url, headers=headers) #获得网页 Soup=BeautifulSoup(start_html.text,'lxml') #调用bs4 p_list=Soup.find_all('p')# 找出所有p标签里面的内容 Title=str(Soup.body.h1)#把得到标题 #Tlen=len(Title) Title=Title[18:len(Title)-5]#去掉标签等乱七八找的东西 #写入txt with open(Title+'.txt','w') as f: for p in p_list: pstr=str(p) plen=len(pstr) if pstr.find('class')>0: continue; s=pstr[3:plen-4]; tmp='' mark=0 for sub_s in s:#去掉里面 乱七八糟的标签 if sub_s=='<': mark=1 if sub_s=='>': mark=0 if mark==1: continue elif sub_s!='>': tmp=tmp+sub_s f.write(tmp+'\n') if __name__=='__main__': name=getUrl('http://www.jianshu.com/users/d699edde9c0e/latest_articles') pat=str(name[0:len(name)-8]) print(pat) os.makedirs(os.path.join("/home/guanjun/桌面/Read",pat)) s='/home/guanjun/桌面/Read/'+pat os.chdir(s) #print(s) for url in list1: print("文章链接:"+url) if len(list1)==0: print('该网页下没有要爬去的链接') else: for url in list1: getTxt(url) print('爬取完成!!')
效果图:



觉得代码还是有点挫..话说为什么一个页面上只有9片文章的链接?
以后可以放手机上看。。
    原文地址:http://www.cnblogs.com/pk28/    
与有肝胆人共事,从无字句处读书。
欢迎关注公众号: 
欢迎关注公众号:
 
 
                    
                     
                    
                 
                    
                 
 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号