Fork me on GitHub
摘要: 爬到的书店的名称里面有如下情况: 这是HTML转义字符的原因导致的, 如下: 解决方法 方法一 采用正则 如下,有问题,这样变成一个一个字符了,还要进行拼接处理 方法二 使用html模块里面的方法-html.unescape() 欧克 阅读全文
posted @ 2018-06-28 15:39 TaoTao~ 阅读(1065) 评论(0) 推荐(0)
摘要: 处理爬虫程序的时候,需要对书籍信息的出版日期,爬取优先级同时进行排序 即order by后面加两个字段。 order by后面加两个字段,用英文逗号隔开 若出版日期pubdate升序,优先级降序 order by pubdate,priority DESC 若出版日期,优先级都降序,需要这样写 or 阅读全文
posted @ 2018-06-28 15:29 TaoTao~ 阅读(868) 评论(0) 推荐(0)