随笔分类 - python
摘要:额,在另一个爬虫里又遇到了悲剧,emmmmmmmmm. 1400 960 一番观察之后 我终于找到了错误的根源 原来不同的URL不同的标签所对应的页面信息竟然相同。 终于明白了 出现这种情况的原因就是这两个地方没有相应的条件的信息,于是就提供了云南省的信息。
阅读全文
摘要:由于一个文件的末尾多出了几个空行,导致抓取链接的网页重复,再加上数据量大,各种原因吧! 20万数据洗成了两万,不完全统计某些数据重复数高达100条,爬虫这一天是白跑了,痛定思痛, 这种错误以后可不能再犯了。这不仅耽误自己时间,也对不起人家网站呐。
阅读全文
摘要:服务器在网页上不能唤出多个终端,这个时候后台运行就很有必要了。 最简单的只要在命令后加一个&符就行了 例如: python test.py & 另外还可以使用nohup命令。 参见 https://www.cnblogs.com/master-pokemon/p/5790783.html https
阅读全文
摘要:URL必须是一个List,所以遇到该错误只需要将url转换成list。 例如: start_urls = ['someurls']
阅读全文
摘要:到http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件(我的python版本是3.6.1 64位对应Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl),cp后面是python版本,a
阅读全文
摘要:真是神奇,在我为python可视化的图表在jsp页面中不能动态更新的时候,老师告诉我也许能直接调用,竟然还有这种操作!!! 百度一下,再应用一下,真的成功了! 害怕! 学无止境啊!
阅读全文
摘要:今天有毒啊!!! 怎么转义字符还转不明白了呢? 今儿个是整不明白了。。。 啊,不是,我想起来了,以前遇过这个错,这是因为我的csv文件中有中文。 整明白啦!!!哈哈哈哈。 记事本另存为utf-8编码即可。 另外,在写文件时可以指定utf-8编码,
阅读全文
摘要:像这样。 这是因为导入的时候,是这样写的: 只要改成wb+,也就是写二进制文件,就好了吗? 并没有!!! 报错:TypeError: a bytes-like object is required, not 'str' 查阅了官方文档,改成如下即可 成功解决。
阅读全文
摘要:使用pydoc可以很方便的查看类和方法结构,可以在命令行里打开,也可以在浏览器里。 网页界面好可爱的说。。。极大地提高了我查看源码的兴趣啊。。。 命令行版像这样。。。回车就能查看更多。 浏览器版:(在8080端口打开) 我最喜欢的少女粉呐!!!
阅读全文
摘要:这个错误让我很方啊。首先我的字段类型是用utf8mb4_unicode_ci编码的,防止emoji之类的显示不出来嘛,虽然说不会有emoji出现吧。 没加注释的是报错的,加了注释的是正确的,就是为了省时才写的脚本,结果呵呵了,这两种方式有啥区别吗?为啥上边的就不对呢?有待研究。。。 ++++++++
阅读全文
摘要:很悲催的是我写错了,之前的插入没有问题。但是更新就报错了,本身就是我的写法有错误,有必要记录一下。 插入语句是没有问题的,这是因为所有项都是字符串。 一旦有数字就完了,就会报上面的错误。 更改如下: OK~
阅读全文
摘要:错误原因就是添加了相同的主键,我想了好一会儿,我抓的数据主键是Isbn啊,不可能重的啊,于是,我去数据库中查了以下报错的isbn号,插入的数据中也有,因为分类不一样,所以要再插入一次,这就肯定会报错啦,其中一个处理方法就是, 如果数据库中有这条记录,那么就跳过这条记录,另外,还可以在跳过这条记录的同
阅读全文
摘要:这是python小白都会遇到的问题,但是我不算太白,怎么说的, 平时都是直接粘贴的,今天要自己写了,竟然写不出来,知道是coding=utf-8,但是这样写也不行啊。 #-*- coding:utf-8 –*- 这样写就ok了。
阅读全文
摘要:爬取这种类型的数据,它的特点就是不在标签中,我现在所掌握的xpath知识搞不定它啊。 想想用正则表达式也行,暂且不研究。这里用另一种方法。 首先附上我抓到的文本信息。 经过分析,这些信息都是成对出现的,那么清洗也就不难了。 简单的字符串处理即可。 OK.
阅读全文
摘要:测试课上老师讲的这么一个框架,平时不打能用得上啊,赶紧记下来吧,不然就该忘了。 简单的一个小测试: 保存成文本文件。 起名为test.txt. ok,小测试就完成了。
阅读全文
摘要:Tkinter(也叫Tk接口)是Tk图形用户界面工具包标准的Python接口。Tk是一个轻量级的跨平台图形用户界面(GUI)开发工具。 注意在python2中为Tkinter,在python3中为tkinter. python3下安装: sudo apt-get install python3-tk
阅读全文
摘要:原因是点击第二个时已经是新页面,找不到之前页面的元素。 报错代码段 报错: 只要刷新页面之后重新获取元素就行,不要提前获取一组元素,然后去循环操作每一个元素,这种情况还是获取元素的个数,然后在循环中获取相应位置的元素,在用的时候才去获取 遇到页面有变化的情况,不要去循环元素,去循环个数或者定位方式,
阅读全文
摘要:最近写的爬虫大多出错在。。。 在B页面抓取A页面的信息, 这样自然报一堆错, 我检查Xpath到怀疑人生, 明明Xpath没有错啊, 为什么报错呢 selenium.common.exceptions.NoSuchElementException 原因就是 所在页面不对啊, A页面怎么可能抓到B页面
阅读全文
摘要:之一就是Selenium的安装啦。 pip install 即可。 这里的之二是打开火狐: driver = webdriver.Firefox(executable_path='/usr/lib/firefox/firefox') executable_path是firefox的安装路径 可是我忘
阅读全文
摘要:根据所抓取的网页来修改编码, 如果网页编码是utf-8, 那就html=html.decode('utf-8') 上下文是这样的 html = '' while True: html = loadurl(url) if html == '': print ('load', url,'error')
阅读全文

浙公网安备 33010602011771号