python网络爬虫标签详细定位
htmls = requests.get("https://movie.douban.com/subject/2158490/comments?start=0&limit=20&sort=new_score&status=P&percent_type=")#获取一个网址(以豆瓣为例)
bsObj = BeautifulSoup(htmls.text,"html.parser") #用requests库对象不能直接beautifulsoup,转换成str或者是二进制
#ping = bsObj.findAll("p",attrs = {"class":True,"pl":None})
ping = bsObj.findAll("p",{"class":{"":True,"pl":None}}) #找到所有的p标签中的class标签 只要class标签中的“”不要“pl”
#<p class="">这是其中的一个标签,我是这样理解的,p里面包含着class,class里包含着“” 上面的意思是寻找所有p标签中的class,只要class中的所有“”不要"pl"
lin = [] #新建空列表
for n in ping: #找出里面的字符
a = n.get_text().replace("\n","").replace("\t","") #将内容和标签分离并把换行符和tab替换为空
lin.append(a) #将a添加到列表
print(lin) #输出
浙公网安备 33010602011771号