python爬虫入(cai)门(keng)总结(一)

【请各位大佬不要吐槽本人的碎碎念,以下是作为一个本科低年级学生,在疯狂踩坑之后写下的一点小总(bei)结(wang),以便不时之需

   同时也方便一下和我同样是小白的朋友们,就不需要到处查,到处踩坑,到处自闭了】

【以下文档基于本人win10,Python版本3.6.8,不同操作系统,不同python版本会有出入,请读者慎重!】

//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

新手安装python IDE

 

好在还是个前端小白,有一点点的小技巧

复制一下浏览器访问吧

 

//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

好了,接下来我就默认你已经装好了pycharm,你以为你就开始愉快的开始爬虫学习了?

恭喜你,你的踩坑之旅才刚刚开始!

 

这是教程给出的预备知识,我觉得其实语法什么的,只要是有过编程基础的,不管c,vb,c++,java什么的,基本对着python的代码就能看懂,什么看不懂就去百度什么好了,这都不是问题。

 

我们重点来讲pip第三方库的安装。

对于pip,你下一个高版本一点的python就会自带,我们就图方便不去踩坑了。

装第三方库的话我举例requests_html,就输入命令

pip install requests_html

 

,然后坐吃等死就行了,没什么技术含量。

 

装好了requests_html,我们兴致勃勃地拿了一段代码,打算见证奇迹。例如:

from requests_html import HTMLSession

session = HTMLSession()

r = session.get('https://movie.douban.com/subject/1292052/')

print(r.text)

 

右键,run!完美!(以上是你的想象)

现实是:pycharm给了你无法引入第三方库地报错!awsl!我们不是已经装好了requests_html吗!

https://blog.csdn.net/qq_38223945/article/details/81485445 请阅读此篇教程,配置你的python路径。虽然这篇的作者是mac系统,但丝毫不影响win用户的意会。

 

终于!我们大功告成!第一个爬虫程序√

入门了?不,踩坑刚刚开始。

 

////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

关于新手入门的爬虫教程我这边有一个推荐

https://www.python123.io/index/tutorials/web_crawler_intro 基本马上可以上手

但有个痛点就是,你看完这篇教程以后局限性还是有点大的。

但!但!但!无敌完美适合你有个项目里面改一个小细节要用爬虫,一个下午的时间搞出来就完事了。深入研究还是另谋高就!

 

/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

我们用python其实多半是依赖第三方库,你很快就会发想pip下库特别慢,而且容易报ReadTimeoutError。

 

下面就是一种解决方案:

Pip安装ReadTimeoutError报错

(图片似乎看不太清,没事不是重点【ReadTimeoutError】)

一般情况下PIP出现ReadTimeoutError都是因为被GFW给墙了,所以一般遇到这种问题,我们可以选择国内的镜像来解决问题。

 

【在Windows下:

C:\Users\Administrator\下新建pip文件夹,在创建pip.ini文件,拷贝下面代码进去,保存。

 [global]

 index-url = https://pypi.tuna.tsinghua.edu.cn/simple

 

本人在装matplotlib的时候亲测有用,但在apscheduler上似乎翻车了?但是但是但是!!!(重要的事情说三遍!)本人不服气一模一样的命令又执行了一遍,然后又可以了?

好叭软件的是玄学,如果大家遇到这个问题就多试几次叭~

 

原文:https://blog.csdn.net/abcabc77777/article/details/53456453

 

////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

现在我们假如说要爬一个有很多页的书店网页里面的全部书名,可能在爬到三四页、七八页的时候就会有如下报错

pyppeteer.errors.NetworkError: Protocol Error (Runtime.callFunctionOn): Session closed. Most likely the page has been closed.

https://github.com/miyakogi/pyppeteer/pull/160/files(解决方法)

如果找不到connection.py的话(我全局搜索就没搜出来QAQ),就去cmd(假装安装一次pyppeteer),就能看到你之前安装的路径了,如下图所示

 

https://blog.csdn.net/weixin_39198406/article/details/86719814

别人整理出来的pyppeteer报错与解决方案汇总)

 

posted @ 2019-03-22 19:53  xyy999  阅读(315)  评论(0)    收藏  举报