python网络爬虫标签详细定位

htmls = requests.get("https://movie.douban.com/subject/2158490/comments?start=0&limit=20&sort=new_score&status=P&percent_type=")#获取一个网址(以豆瓣为例)

bsObj = BeautifulSoup(htmls.text,"html.parser")                                  #用requests库对象不能直接beautifulsoup,转换成str或者是二进制

#ping = bsObj.findAll("p",attrs = {"class":True,"pl":None}) 
ping = bsObj.findAll("p",{"class":{"":True,"pl":None}})   #找到所有的p标签中的class标签  只要class标签中的“”不要“pl”

#<p class="">这是其中的一个标签,我是这样理解的,p里面包含着class,class里包含着“”  上面的意思是寻找所有p标签中的class,只要class中的所有“”不要"pl"

lin = []                                 #新建空列表
for n in ping:            #找出里面的字符
    a = n.get_text().replace("\n","").replace("\t","")  #将内容和标签分离并把换行符和tab替换为空
    lin.append(a)             #将a添加到列表
print(lin) #输出

posted @ 2017-11-23 21:04  DY2017  阅读(682)  评论(0)    收藏  举报