01 2018 档案
摘要:不常git不是一个好习惯。一旦git就会发现一堆错误,当着急分享代码给小伙伴的时候,这就情况不妙了,所以贴一些我遇到的错误。 当利用git bash向已存在的库中上传新代码时 执行 git push origin master报错:To http://git.XXX.com/XXX/xxx ! [r
阅读全文
摘要:额,在另一个爬虫里又遇到了悲剧,emmmmmmmmm. 1400 960 一番观察之后 我终于找到了错误的根源 原来不同的URL不同的标签所对应的页面信息竟然相同。 终于明白了 出现这种情况的原因就是这两个地方没有相应的条件的信息,于是就提供了云南省的信息。
阅读全文
摘要:还是第一次出现这个问题。 使用last命令 有可能是网络ip地址变化导致xshell自动断开连接,修改本机ip为固定地址即可。 还可能是本机网络dns变化导致xshell自动断开连接,修改ssh配置文件将其中“UseDNS yes”去掉注释并改成no即可,过程如下。 重启系统即可。 参考 http:
阅读全文
摘要:由于一个文件的末尾多出了几个空行,导致抓取链接的网页重复,再加上数据量大,各种原因吧! 20万数据洗成了两万,不完全统计某些数据重复数高达100条,爬虫这一天是白跑了,痛定思痛, 这种错误以后可不能再犯了。这不仅耽误自己时间,也对不起人家网站呐。
阅读全文
摘要:编码问题一直不怎么讨人喜欢,处理文本时经常遇到各种编码问题,这不,今天又遇见一个。 知道了'\xa0'是什么,问题就不难解决了。 去掉了这个字符,按理说没什么问题了。 如果还不行,那么查看一下要读取的文件的编码,一般来讲,他是一个UTF-8编码的,那么把他改成ansi编码的,按正常方法读取即可。 .
阅读全文
摘要:服务器在网页上不能唤出多个终端,这个时候后台运行就很有必要了。 最简单的只要在命令后加一个&符就行了 例如: python test.py & 另外还可以使用nohup命令。 参见 https://www.cnblogs.com/master-pokemon/p/5790783.html https
阅读全文
摘要:URL必须是一个List,所以遇到该错误只需要将url转换成list。 例如: start_urls = ['someurls']
阅读全文
摘要:很久以前从csdn上粘下来的,不记得原作者是谁了。
阅读全文
摘要:set中所有元素都会根据元素的键值自动排序,set的元素不像map那样可以同时拥有实值(value)和键值(key),set元素的键值就是实值,实值就是键值。set不允许两个元素有相同的键值。 set的各成员函数列表如下: 1. begin()--返回指向第一个元素的迭代器 2. clear()--
阅读全文

浙公网安备 33010602011771号