python - 随笔分类 - 深圳地铁Princess

爬取的数据周期性重复

摘要：额，在另一个爬虫里又遇到了悲剧，emmmmmmmmm. 1400 960 一番观察之后我终于找到了错误的根源原来不同的URL不同的标签所对应的页面信息竟然相同。终于明白了出现这种情况的原因就是这两个地方没有相应的条件的信息，于是就提供了云南省的信息。阅读全文

posted @ 2018-01-15 12:40 深圳地铁Princess 阅读(382) 评论(0) 推荐(0)

痛定思痛！几个空行引起的重大失误！

摘要：由于一个文件的末尾多出了几个空行，导致抓取链接的网页重复，再加上数据量大，各种原因吧！ 20万数据洗成了两万，不完全统计某些数据重复数高达100条，爬虫这一天是白跑了，痛定思痛，这种错误以后可不能再犯了。这不仅耽误自己时间，也对不起人家网站呐。阅读全文

posted @ 2018-01-14 19:57 深圳地铁Princess 阅读(173) 评论(0) 推荐(0)

linux后台运行python脚本

摘要：服务器在网页上不能唤出多个终端，这个时候后台运行就很有必要了。最简单的只要在命令后加一个&符就行了例如： python test.py & 另外还可以使用nohup命令。参见 https://www.cnblogs.com/master-pokemon/p/5790783.html https 阅读全文

posted @ 2018-01-13 11:23 深圳地铁Princess 阅读(250) 评论(0) 推荐(0)

scrapy报错：ValueError: Missing scheme in request url: h

摘要：URL必须是一个List，所以遇到该错误只需要将url转换成list。例如： start_urls = ['someurls'] 阅读全文

posted @ 2018-01-11 12:41 深圳地铁Princess 阅读(438) 评论(0) 推荐(0)

windows下安装scrapy报错：building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is required.

摘要：到http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件（我的python版本是3.6.1 64位对应Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl），cp后面是python版本，a 阅读全文

posted @ 2017-12-11 18:46 深圳地铁Princess 阅读(497) 评论(0) 推荐(0)

jsp调用Python

摘要：真是神奇，在我为python可视化的图表在jsp页面中不能动态更新的时候，老师告诉我也许能直接调用，竟然还有这种操作！！！百度一下，再应用一下，真的成功了！害怕！学无止境啊！阅读全文

posted @ 2017-11-20 11:14 深圳地铁Princess 阅读(4232) 评论(0) 推荐(0)

pandas读取csv文件报错

摘要：今天有毒啊！！！怎么转义字符还转不明白了呢？今儿个是整不明白了。。。啊，不是，我想起来了，以前遇过这个错，这是因为我的csv文件中有中文。整明白啦！！！哈哈哈哈。记事本另存为utf-8编码即可。另外，在写文件时可以指定utf-8编码，阅读全文

posted @ 2017-11-19 18:18 深圳地铁Princess 阅读(378) 评论(0) 推荐(0)

解决python写入csv文件每两行间隔一个空行的问题

摘要：像这样。这是因为导入的时候，是这样写的：只要改成wb+,也就是写二进制文件，就好了吗？并没有！！！报错：TypeError: a bytes-like object is required, not 'str' 查阅了官方文档，改成如下即可成功解决。阅读全文

posted @ 2017-11-19 17:34 深圳地铁Princess 阅读(1820) 评论(0) 推荐(0)

pydoc简介及使用

摘要：使用pydoc可以很方便的查看类和方法结构，可以在命令行里打开，也可以在浏览器里。网页界面好可爱的说。。。极大地提高了我查看源码的兴趣啊。。。命令行版像这样。。。回车就能查看更多。浏览器版：（在8080端口打开）我最喜欢的少女粉呐！！！阅读全文

posted @ 2017-11-19 10:59 深圳地铁Princess 阅读(3239) 评论(0) 推荐(0)

python脚本更新数据库报错：pymysql.err.InternalError: (1054, u"Unknown column '\u533b\u836f' in 'where clause'")

摘要：这个错误让我很方啊。首先我的字段类型是用utf8mb4_unicode_ci编码的，防止emoji之类的显示不出来嘛，虽然说不会有emoji出现吧。没加注释的是报错的，加了注释的是正确的，就是为了省时才写的脚本，结果呵呵了，这两种方式有啥区别吗？为啥上边的就不对呢？有待研究。。。 ++++++++ 阅读全文

posted @ 2017-11-08 19:36 深圳地铁Princess 阅读(5594) 评论(1) 推荐(0)

python脚本更新数据库报错：TypeError: %d format: a number is required, not str

摘要：很悲催的是我写错了，之前的插入没有问题。但是更新就报错了，本身就是我的写法有错误，有必要记录一下。插入语句是没有问题的，这是因为所有项都是字符串。一旦有数字就完了，就会报上面的错误。更改如下： OK~ 阅读全文

posted @ 2017-11-08 19:23 深圳地铁Princess 阅读(5163) 评论(0) 推荐(0)

利用python将文本文件导入数据库时，报错：Duplicate entry '...' for key 'PRIMARY'

摘要：错误原因就是添加了相同的主键，我想了好一会儿，我抓的数据主键是Isbn啊，不可能重的啊，于是，我去数据库中查了以下报错的isbn号，插入的数据中也有，因为分类不一样，所以要再插入一次，这就肯定会报错啦，其中一个处理方法就是，如果数据库中有这条记录，那么就跳过这条记录，另外，还可以在跳过这条记录的同阅读全文

posted @ 2017-11-08 16:16 深圳地铁Princess 阅读(1746) 评论(0) 推荐(0)

使python支持中文

摘要：这是python小白都会遇到的问题，但是我不算太白，怎么说的，平时都是直接粘贴的，今天要自己写了，竟然写不出来，知道是coding=utf-8，但是这样写也不行啊。 #-*- coding:utf-8 –*- 这样写就ok了。阅读全文

posted @ 2017-11-07 15:17 深圳地铁Princess 阅读(209) 评论(0) 推荐(0)

爬虫小技巧

摘要：爬取这种类型的数据，它的特点就是不在标签中，我现在所掌握的xpath知识搞不定它啊。想想用正则表达式也行，暂且不研究。这里用另一种方法。首先附上我抓到的文本信息。经过分析，这些信息都是成对出现的，那么清洗也就不难了。简单的字符串处理即可。 OK. 阅读全文

posted @ 2017-11-07 15:05 深圳地铁Princess 阅读(189) 评论(0) 推荐(0)

python doctest的一些应用：

摘要：测试课上老师讲的这么一个框架，平时不打能用得上啊，赶紧记下来吧，不然就该忘了。简单的一个小测试：保存成文本文件。起名为test.txt. ok,小测试就完成了。阅读全文

posted @ 2017-11-02 13:57 深圳地铁Princess 阅读(208) 评论(0) 推荐(0)

tkinter的安装：

摘要：Tkinter（也叫Tk接口）是Tk图形用户界面工具包标准的Python接口。Tk是一个轻量级的跨平台图形用户界面（GUI）开发工具。注意在python2中为Tkinter，在python3中为tkinter. python3下安装： sudo apt-get install python3-tk 阅读全文

posted @ 2017-10-14 15:23 深圳地铁Princess 阅读(772) 评论(0) 推荐(0)

selenium.common.exceptions.StaleElementReferenceException 报错原因

摘要：原因是点击第二个时已经是新页面，找不到之前页面的元素。报错代码段报错：只要刷新页面之后重新获取元素就行，不要提前获取一组元素，然后去循环操作每一个元素，这种情况还是获取元素的个数，然后在循环中获取相应位置的元素，在用的时候才去获取遇到页面有变化的情况，不要去循环元素，去循环个数或者定位方式，阅读全文

posted @ 2017-10-10 18:27 深圳地铁Princess 阅读(1054) 评论(0) 推荐(0)

Selenium 动态监测爬虫所在位置

摘要：最近写的爬虫大多出错在。。。在B页面抓取A页面的信息，这样自然报一堆错，我检查Xpath到怀疑人生，明明Xpath没有错啊，为什么报错呢 selenium.common.exceptions.NoSuchElementException 原因就是所在页面不对啊， A页面怎么可能抓到B页面阅读全文

posted @ 2017-10-10 16:30 深圳地铁Princess 阅读(185) 评论(0) 推荐(0)

python爬虫使用Selenium的准备工作之二：

摘要：之一就是Selenium的安装啦。 pip install 即可。这里的之二是打开火狐： driver = webdriver.Firefox(executable_path='/usr/lib/firefox/firefox') executable_path是firefox的安装路径可是我忘阅读全文

posted @ 2017-10-09 20:52 深圳地铁Princess 阅读(261) 评论(0) 推荐(0)

python3写爬虫报错--------TypeError: cannot use a string pattern on a bytes-like object

摘要：根据所抓取的网页来修改编码，如果网页编码是utf-8，那就html=html.decode('utf-8') 上下文是这样的 html = '' while True: html = loadurl(url) if html == '': print ('load', url,'error') 阅读全文

posted @ 2017-10-08 21:27 深圳地铁Princess 阅读(557) 评论(0) 推荐(0)

深圳地铁Princess

刷题的路还很长。。。一步一个脚印踏踏实实地走下去吧。。。

随笔分类 - python

公告