上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 13 下一页
摘要: 什么是可哈希(hashable)? 简要的说可哈希的数据类型,即不可变的数据结构(字符串str、元组tuple、对象集objects)。 哈希有啥作用? 它是一个将大体量数据转化为很小数据的过程,甚至可以仅仅是一个数字,以便我们可以用在固定的时间复杂度下查询它,所以,哈希对高效的算法和数据结构很重要 阅读全文
posted @ 2019-05-19 14:26 暮良文王 阅读(9995) 评论(3) 推荐(1)
摘要: 使用json.dumps时要注意, json.dumps 序列化时,默认使用ascii编码,所以输出的是 '中国' 的ascii 字符码 "\u4e2d\u56fd" 想输出真正的中文需要指定ensure_ascii=False : 阅读全文
posted @ 2019-05-15 18:00 暮良文王 阅读(466) 评论(0) 推荐(0)
摘要: 使用Pyspider中报此错误。 错误原因: 这个错误会发生在请求 https 开头的网址,SSL 验证错误,证书有误。 解决方法: 使用self.crawl(url, callback=self.index_page, validate_cert=False) 阅读全文
posted @ 2019-05-09 15:56 暮良文王 阅读(1927) 评论(0) 推荐(0)
摘要: 比如: 怎么获取bbb和ddd呢? 结果: 阅读全文
posted @ 2019-04-10 10:48 暮良文王 阅读(1201) 评论(0) 推荐(1)
摘要: 工作中,用Selenium自动化填表并获取结果时,程序一直安静的读取数据库,网页填表,获取结果,存库,但跑着跑着突然报错了。 排查后,原来不是Selenium的问题,是数据比较特殊,带了个双引号,如下 填表后提交时,触发了Chrome XSS自动过滤器 xssAuditor,导致POST请求拦截。( 阅读全文
posted @ 2019-03-26 13:07 暮良文王 阅读(3310) 评论(1) 推荐(0)
摘要: 装 识别图形验证码库tesserocr的时候,出现了Microsoft visual c++ 14.0 is required的问题,用离线安装还是没有用。 就只能乖乖装Microsoft visual c++ 14.0了,找了好多不好使,最后找到了一个: 点击打开链接 阅读全文
posted @ 2019-03-21 16:20 暮良文王 阅读(24038) 评论(3) 推荐(4)
摘要: 转义符都知道,但可能会理解不到位,或者不深入。今天在工作中,遇到了转义符的问题,记录于此,也供大伙参考。 1.问题概述 爬取到的文本段落,中间有\t \r未处理就存入数据库了(文本截取如下: '......有效性。\r次要......' ),导致后来需要刷库,而在刷库过程中, 我用的是:UPDATE 阅读全文
posted @ 2019-02-14 22:14 暮良文王 阅读(1127) 评论(2) 推荐(1)
摘要: 1.发现BUG 爬取 chinadrugtrials 详情页的公示的试验信息时候, 发现程序在某些地方跑断掉了,如下: 经排查发现,原来这是网页的bug 极少数详情页面的某些文字中的小于号,未转化为实体符,连接上后面的 ul 或者a(大写也是), 成了类似标签的东西, 导致bs4 解析时候把它当成了 阅读全文
posted @ 2019-02-13 21:27 暮良文王 阅读(592) 评论(0) 推荐(0)
摘要: 1. 先搞清 ''(空字符串)和 NULL的区别 (1)本质区别: 空字符串是个值 NULL 和Python中的None一样,是空值的意思 (2)查询语句的区别: SELECT * FROM test_null WHERE name is NULL; SELECT * FROM test_null 阅读全文
posted @ 2019-01-29 10:00 暮良文王 阅读(11848) 评论(0) 推荐(0)
摘要: 直接先上结论: 若匹配规则里有1个括号 返回的是括号所匹配到的结果, 若匹配规则里有多个括号 返回多个括号分别匹配到的结果, 若匹配规则里没有括号 就返回整条语句所匹配到的结果。 实际上是由其并不是python特有的,这是 正则 所特有的 , 任何一门高级语言使用正则都满足这个特点: 有括号时只能匹 阅读全文
posted @ 2019-01-26 16:01 暮良文王 阅读(4074) 评论(0) 推荐(1)
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 13 下一页