摘要: 有时候一些网站爬取的网址是很奇怪的,例如:本应该是http://,但是爬取出来显示的是http%3A%2F%2F,总结下就是没有符号,没有中文。 其实这不是乱码,查了很多资料大概是用url_encode进行了编码,我们要向得到正确的网址,需要进行解码,方法如下: from urllib import 阅读全文
posted @ 2020-03-21 11:36 Crays-Zhang 阅读(297) 评论(0) 推荐(0)
摘要: soup.find和findAll的区别很简单,就是一个和多个的区别。 需要注意的是soup.finall是没有的,只能是findAll,不然会说nonetype啥啥啥的。 还有finall返回的对象利用list()可以转换成列表 阅读全文
posted @ 2020-03-21 11:32 Crays-Zhang 阅读(393) 评论(0) 推荐(0)