会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
YYF胖头鱼
博客园
首页
新随笔
联系
订阅
管理
2020年7月4日
git学习笔记
摘要: 首先,练习的话,最好模拟一个和实际比较相似的环境。这里,我使用github作为我的远端。如何连接和设置github不是重点,不做记录。 1.初始化git. 使用git前,需要在本地初始化。 命令: git init 结果:自动切换到本地的master分支。 2.关联远端的版本库。 建立本地版本库与远
阅读全文
posted @ 2020-07-04 23:03 YYF胖头鱼
阅读(140)
评论(0)
推荐(0)
2019年1月7日
多线程爬虫_version_1
摘要: 首先记录几个线程常用的函数(省略threading): Thread(target=,args=(),name=)建立线程函数和三个常用参数。 start() 启动线程。 join() 待子线程执行完毕后,再执行主线程。 简单的小代码:
阅读全文
posted @ 2019-01-07 21:13 YYF胖头鱼
阅读(318)
评论(0)
推荐(0)
2018年12月10日
搜索是关键字的编码和解码
摘要: 学点东西真的是太难了,真心膜拜那种2个礼拜就能搞定一门语言的大神。 今天遇到的问题是,使用搜索接口时,一些网站会为了兼容性,会将搜索的关键字转码。转码后拼接到URL里,然后进行访问。 1.在python3.x中,编码使用的函数是urllib.parse.urlencode(),解码使用的是urlli
阅读全文
posted @ 2018-12-10 23:26 YYF胖头鱼
阅读(1169)
评论(0)
推荐(0)
2018年12月8日
爬虫2
摘要: 今天杭州市是真的冷,还没来得及感受秋天,冬天突然来了,有点措手不及。 这篇把剩下的写完。 找到要爬取分组的url,我用了正则表达式,re库里的findall()方法,好处是返回是一个list,缺点是返回的list中可能有重复。 list去重是一个很简单,但是可能在各公司面试时比较常见的一个问题。 下
阅读全文
posted @ 2018-12-08 20:49 YYF胖头鱼
阅读(146)
评论(0)
推荐(0)
开始写一个爬虫(1)
摘要: 因为是作为笔记写的,所以会很啰嗦,而且代码不会全部展示。。 首先,你要确定一个目标,就是你要爬的网站。我选的就不说了,比较邪恶,需要18岁以下的小僵尸绕路。 选好之后,构思下整个脚本的大致结构。 1.通过网站的查询接口出一组比较感兴趣的话题下的一些分组,获取这些分组URL,存储成一个list. 2.
阅读全文
posted @ 2018-12-08 16:12 YYF胖头鱼
阅读(137)
评论(0)
推荐(0)
写爬虫时如何判断页数
摘要: 最近打算学点东西。 好像一直都打算学点东西,然后学了之后平时用不到,又全忘了。 做了一大堆笔记,也没看过,大部分都不知道丢到哪去了。 这样的一个状态肯定不行,正赶上最近职业焦虑比较严重,肯定要再学点东西。不管是真的管用还是安慰下自己。所以大佬们不要看我写的东西幼稚,然后喷我。对各位没帮助,绕道即可,
阅读全文
posted @ 2018-12-08 12:03 YYF胖头鱼
阅读(2016)
评论(0)
推荐(0)
公告