随笔分类 -  学习之旅

摘要:在用xpath解析网页的时候,会遇到tbody标签。tbody标签有的时候可以解析,有的时候不可以解析,遇到tbody标签时要看网页源代码,如果源代码有tbody标签,就要加上tbody标签才能解析。如果源代码没有tbody标签,那么tbody标签是浏览器对html文本进行一定的规范化而强行加上去的 阅读全文
posted @ 2020-07-11 22:35 菜鸟峰 阅读(2012) 评论(0) 推荐(1)
摘要:线程 一个人,他有三个思想。第一个思想是做饭,第二个思想是烧水,第三个思想是洗衣服。这三个思想就是三个线程。 一个人不能同时干三件事。这三个线程具有竞争性,谁赢了这个人就先做这件事。 比如做饭这个线程赢了,这个人就先做饭,做完饭后洗衣服这个线程赢了,这个人接着就洗衣服。。。 进程 有10个人,每个人 阅读全文
posted @ 2020-07-08 01:38 菜鸟峰 阅读(196) 评论(0) 推荐(1)
摘要:AJAX (以下内容仅针对爬虫。如果做开发,这些知识还不够,需要深入了解。) AJAX = Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。AJAX 是一种用于创建快速动态网页的技术。 通过在后台与服务器进行少量数据交换,AJAX 可以使网 阅读全文
posted @ 2020-07-06 16:42 菜鸟峰 阅读(152) 评论(0) 推荐(0)
摘要:简介 在爬取网页时,一般都会用到代理IP。蘑菇代理网站:http://www.moguproxy.com/ 蘑菇代理的代理IP有两种:API私密代理和隧道转发代理,这篇文章主要介绍隧道转发代理 。 在官网购买隧道转发代理后,就可以到订单页面查看购买订单的Appkey。如果是第一次使用,那么需要添加白 阅读全文
posted @ 2020-07-05 00:51 菜鸟峰 阅读(2903) 评论(0) 推荐(0)
摘要:在识别验证码的时候,可以调用百度的通用文字识别接口。 步骤 Step1 获取access_token的值。 ① 登陆 https://ai.baidu.com/ ,找到通用文字识别,点击立即使用。 ② 点击创建应用后,会得到API Key 和Secret Key。 ③ 将API Key 和Secre 阅读全文
posted @ 2020-07-02 22:59 菜鸟峰 阅读(3071) 评论(0) 推荐(0)