随笔分类 -  爬虫

摘要:移除标签的两种方式 可以用xpath定位 参考:https://stackoverflow.com/questions/7981840/how to remove an element in lxml 直接删除相关标签 在使用xpath获取指定标签后,直接删除。 参考:https://stackov 阅读全文
posted @ 2019-03-30 11:38 丿小呆 阅读(3173) 评论(1) 推荐(1)
摘要:是有关命名空间namespace的知识,之前在文档中找到的答案,现在不知道为什么打不开官网,无法指出具体出处。 阅读全文
posted @ 2019-03-30 11:35 丿小呆 阅读(913) 评论(0) 推荐(0)
摘要:request返回的response出现乱码 直接出现乱码,是编码错误 这是由于直接赋予的编码不对。 出现\u559c\u6b22\u4e00\u4e2a等类似的unicode编码 需要解析unicode编码 出现& x884c等以& x开头的 & x开头的是一种网页编码格式需要通过html解析 阅读全文
posted @ 2019-03-30 11:29 丿小呆 阅读(379) 评论(0) 推荐(0)