摘要: 举例: <h2 class='total fl'> '共找到' <span> 1219 </span> '个' <a class="xiaoquCount" href="/xiaoqu/jiading/">嘉定小区</a> </h2> children的结果是一个可迭代对象: xiaoqu_num= 阅读全文
posted @ 2021-04-05 15:05 shang的学习园地 阅读(1097) 评论(0) 推荐(0)
摘要: 一些网站在访问时不会一次加载所有元素,需要下拉至底部后等待刷新更多元素出来,利用selenium执行js代码滚动页面,每次重新获取页面高度,直到页面高度不再变化。 js='return document.body.scrollHeight;'height=0while True: new_heigh 阅读全文
posted @ 2021-04-01 14:19 shang的学习园地 阅读(3318) 评论(0) 推荐(0)
摘要: 用spyder运行正常,程序上传到服务器,添加计划任务,运行报错:ModuleNotFoundError: No module named 'selenium',实际上已经安装了。 搜索一番,有人说程序前面加上: import sys import os curPath = os.path.absp 阅读全文
posted @ 2021-03-26 18:25 shang的学习园地 阅读(903) 评论(0) 推荐(0)
摘要: 目前知道的爬虫下载文件就是两种方式: urllib.request.urlretrieve,感觉这种更快?至少代码比较简洁,但是不能直接加header,遇到一些网站会直接拒绝 urllib.request.get 或者 requests.get 然后写入文件,可以直接加上header,因为reque 阅读全文
posted @ 2021-03-11 21:17 shang的学习园地 阅读(1250) 评论(0) 推荐(1)