2021 年 10月 9 日随笔档案 - kakaok

2021年10月9日

摘要：一直用xpath提取网页数据，有些文章嵌入一些图片 a标签等，一般的通用做法是用【正则】去除，可是也很难满足要求，尤其是要提取的内容跟图片和a标签在相同的标签里如上图，都在p标签里，不管是内容还是图片，这时用正则也不是很灵活，现在办法是通过提取到文章主体部分，然后依次遍历每个段落， div_li 阅读全文

posted @ 2021-10-09 10:01 kakaok 阅读(1824) 评论(0) 推荐(0)

kakaok

公告