摘要: 背景 经常做爬虫的人,应该对\x00、\x01这样的字符不陌生,网页源码里面 不经常 出现。不过一般都不深究这到底是啥。一开始我也没研究,发现之后就拿正则替换掉,简单粗暴的处理。之所以要去掉,是因为使用Python的lxml库处理的时候会抛异常。再后来,由于需要做一个通用一些的采集器,没办法再无视这 阅读全文
posted @ 2020-01-03 21:25 Mr..D 阅读(1248) 评论(1) 推荐(1) 编辑