python网络爬虫标签详细定位

htmls = requests.get("https://movie.douban.com/subject/2158490/comments?start=0&limit=20&sort=new_score&status=P&percent_type="）#获取一个网址（以豆瓣为例）

bsObj = BeautifulSoup(htmls.text,"html.parser") #用requests库对象不能直接beautifulsoup,转换成str或者是二进制

#ping = bsObj.findAll("p",attrs = {"class":True,"pl":None})
ping = bsObj.findAll("p",{"class":{"":True,"pl":None}}) #找到所有的p标签中的class标签只要class标签中的“”不要“pl”

#<p class="">这是其中的一个标签，我是这样理解的，p里面包含着class，class里包含着“” 上面的意思是寻找所有p标签中的class，只要class中的所有“”不要"pl"

lin = []                                 #新建空列表
for n in ping:            #找出里面的字符
    a = n.get_text().replace("\n","").replace("\t","") #将内容和标签分离并把换行符和tab替换为空
    lin.append(a)             #将a添加到列表
print(lin) #输出

posted @ 2017-11-23 21:04 DY2017 阅读(698) 评论(0) 收藏举报

刷新页面返回顶部

python网络爬虫标签详细定位

公告