摘要:
问题描述:从新浪微博抓取消息保存到MySQL数据中,对应数据库字段为varchar,字符编码utf-8。部分插入成功,部分插入失败,报错如标题。 在网上查询,有人说是编码问题,建议修改编码格式,比如改成gbk,UTF-8,blob等等,但是几乎没有人给出更详细的答案。在一个英文网站上,才发现真正错误 阅读全文
摘要:
这篇是关于排序的,把常见的排序算法和面试中经常提到的一些问题整理了一下。这里面大概有3个需要提到的问题: 常用的排序算法(主要指面试中)包含两大类,一类是基础比较模型的,也就是排序的过程,是建立在两个数进行对比得出大小的基础上,这样的排序算法又可以分为两类:一类是基于数组的,一类是基于树的;基础数组 阅读全文
摘要:
import os 当前程序的执行路径: os.path。abspath('.') 上级路径: os.path.abspath(os.path.join(os.path.dirname(__file__), os.pardir)) 上级路径的父路径: os.path.abspath(os.path. 阅读全文
摘要:
再爬虫取字段的时候遇到一种类似下面的结构: <p> <br> "通用名称:xxxxxx" </p> 用xpath取的方式://p//text() 可获取到text信息,注意:这里的text()前面是俩个“/” 更多xpath操作: https://www.cnblogs.com/songshu120 阅读全文
摘要:
1.PRIMARY KEY(主键索引) mysql>ALTER TABLE `table_name` ADD PRIMARY KEY ( `column` ) 2.UNIQUE(唯一索引) mysql>ALTER TABLE `table_name` ADD UNIQUE (`column` ) 3 阅读全文
摘要:
在程序中,有些时候需要判断一个拼接的字符串 的重复性,例如:“你好,美女”和“美女,你好”俩个字符串,使之产生一个相同的值,采用加密的方式一般都达不到锁需要的需求,这里使用ord()函数进行转化: def convert2Sys(self, str, func=bin): # 将汉字转化为数字的和 阅读全文
摘要:
在python2的使用中,总会遇到各种各样的编码问题,这也是使用Python2最头疼的一件事情,幸好python3解决了编码的问题。 下面我在爬虫时遇到的类似éç»äººè¡¨ç®çé¿å ååè¶(æå格式的编码。 解决: response = requests. 阅读全文
摘要:
当下很多网站都有做自己的APP端产品,一个优秀的爬虫工程师,必须能够绕过难爬取点而取捷径,这是皆大欢喜的。但是在网上收罗和查阅了无数文档和资料,本人亲测无数次,均不能正常获取HTTPS数据,究其原因是手机端证书安装不正确所致,故编写文章以帮助后来的小伙伴。 当下抓包工具有Fiddler,Charle 阅读全文
摘要:
3.1 nohup命令 如果你正在运行一个进程,而且你觉得在退出帐户时该进程还不会结束,那么可以使用nohup命令. 该命令可以在你退出帐户/关闭终端之后继续运行相应的进程. nohup就是不挂起的意思. 我们现在开始启动服务 python pyserver.py,并且希望在后台运行.我们就可以使用 阅读全文
摘要:
下面是简单的一个重复请求过程,更高级更简单的请移步本博客: https://www.cnblogs.com/fanjp666888/p/9796943.html 在爬虫的执行当中,总会遇到请求连接超时的情况,下面的代码块是在请求超时的情况下,捕捉超时错误并连续发送多次请求,只到请求连接成功。 NET 阅读全文