会员
周边
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Mr.D
博客园
首页
新随笔
联系
管理
订阅
2020年1月3日
控制字符概述-以及移除
摘要: 背景 经常做爬虫的人,应该对\x00、\x01这样的字符不陌生,网页源码里面 不经常 出现。不过一般都不深究这到底是啥。一开始我也没研究,发现之后就拿正则替换掉,简单粗暴的处理。之所以要去掉,是因为使用Python的lxml库处理的时候会抛异常。再后来,由于需要做一个通用一些的采集器,没办法再无视这
阅读全文
posted @ 2020-01-03 21:25 Mr..D
阅读(1248)
评论(1)
推荐(1)
编辑
公告