摘要: 问题描述:从新浪微博抓取消息保存到MySQL数据中,对应数据库字段为varchar,字符编码utf-8。部分插入成功,部分插入失败,报错如标题。 在网上查询,有人说是编码问题,建议修改编码格式,比如改成gbk,UTF-8,blob等等,但是几乎没有人给出更详细的答案。在一个英文网站上,才发现真正错误 阅读全文
posted @ 2018-01-29 16:35 python许三多 阅读(808) 评论(0) 推荐(0) 编辑
摘要: 这篇是关于排序的,把常见的排序算法和面试中经常提到的一些问题整理了一下。这里面大概有3个需要提到的问题: 常用的排序算法(主要指面试中)包含两大类,一类是基础比较模型的,也就是排序的过程,是建立在两个数进行对比得出大小的基础上,这样的排序算法又可以分为两类:一类是基于数组的,一类是基于树的;基础数组 阅读全文
posted @ 2018-01-17 14:59 python许三多 阅读(524) 评论(0) 推荐(0) 编辑
摘要: import os 当前程序的执行路径: os.path。abspath('.') 上级路径: os.path.abspath(os.path.join(os.path.dirname(__file__), os.pardir)) 上级路径的父路径: os.path.abspath(os.path. 阅读全文
posted @ 2018-01-11 14:52 python许三多 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 再爬虫取字段的时候遇到一种类似下面的结构: <p> <br> "通用名称:xxxxxx" </p> 用xpath取的方式://p//text() 可获取到text信息,注意:这里的text()前面是俩个“/” 更多xpath操作: https://www.cnblogs.com/songshu120 阅读全文
posted @ 2018-01-08 14:54 python许三多 阅读(6270) 评论(1) 推荐(0) 编辑
摘要: 1.PRIMARY KEY(主键索引) mysql>ALTER TABLE `table_name` ADD PRIMARY KEY ( `column` ) 2.UNIQUE(唯一索引) mysql>ALTER TABLE `table_name` ADD UNIQUE (`column` ) 3 阅读全文
posted @ 2018-01-06 16:43 python许三多 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 在程序中,有些时候需要判断一个拼接的字符串 的重复性,例如:“你好,美女”和“美女,你好”俩个字符串,使之产生一个相同的值,采用加密的方式一般都达不到锁需要的需求,这里使用ord()函数进行转化: def convert2Sys(self, str, func=bin): # 将汉字转化为数字的和 阅读全文
posted @ 2018-01-03 18:21 python许三多 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 在python2的使用中,总会遇到各种各样的编码问题,这也是使用Python2最头疼的一件事情,幸好python3解决了编码的问题。 下面我在爬虫时遇到的类似é‡ç»„äººè¡¨çš®ç”Ÿé•¿å› å­å‡èƒ¶(易孚格式的编码。 解决: response = requests. 阅读全文
posted @ 2017-12-25 18:06 python许三多 阅读(5226) 评论(0) 推荐(0) 编辑
摘要: 当下很多网站都有做自己的APP端产品,一个优秀的爬虫工程师,必须能够绕过难爬取点而取捷径,这是皆大欢喜的。但是在网上收罗和查阅了无数文档和资料,本人亲测无数次,均不能正常获取HTTPS数据,究其原因是手机端证书安装不正确所致,故编写文章以帮助后来的小伙伴。 当下抓包工具有Fiddler,Charle 阅读全文
posted @ 2017-12-23 18:30 python许三多 阅读(26813) 评论(0) 推荐(0) 编辑
摘要: 3.1 nohup命令 如果你正在运行一个进程,而且你觉得在退出帐户时该进程还不会结束,那么可以使用nohup命令. 该命令可以在你退出帐户/关闭终端之后继续运行相应的进程. nohup就是不挂起的意思. 我们现在开始启动服务 python pyserver.py,并且希望在后台运行.我们就可以使用 阅读全文
posted @ 2017-12-12 09:28 python许三多 阅读(5388) 评论(0) 推荐(0) 编辑
摘要: 下面是简单的一个重复请求过程,更高级更简单的请移步本博客: https://www.cnblogs.com/fanjp666888/p/9796943.html 在爬虫的执行当中,总会遇到请求连接超时的情况,下面的代码块是在请求超时的情况下,捕捉超时错误并连续发送多次请求,只到请求连接成功。 NET 阅读全文
posted @ 2017-12-11 11:36 python许三多 阅读(20121) 评论(3) 推荐(0) 编辑