摘要: 一直用xpath提取网页数据,有些文章嵌入一些图片 a标签等,一般的通用做法是用【正则】去除,可是也很难满足要求, 尤其是要提取的内容跟图片和a标签在相同的标签里 如上图,都在p标签里,不管是内容还是图片,这时用正则也不是很灵活,现在办法是通过提取到文章主体部分,然后依次遍历每个段落, div_li 阅读全文
posted @ 2021-10-09 10:01 kakaok 阅读(1814) 评论(0) 推荐(0)