会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
暮良文王
不奋发,则心日颓靡; 不检束,则心日恣肆。
博客园
首页
新随笔
联系
订阅
管理
2019年2月13日
爬虫处理网站的bug---小于号未转化为实体符
摘要: 1.发现BUG 爬取 chinadrugtrials 详情页的公示的试验信息时候, 发现程序在某些地方跑断掉了,如下: 经排查发现,原来这是网页的bug 极少数详情页面的某些文字中的小于号,未转化为实体符,连接上后面的 ul 或者a(大写也是), 成了类似标签的东西, 导致bs4 解析时候把它当成了
阅读全文
posted @ 2019-02-13 21:27 暮良文王
阅读(592)
评论(0)
推荐(0)
公告