shang的学习园地

2021年4月

beautifulsoup 查询子节点 .children与 .contents

摘要：举例： <h2 class='total fl'> '共找到' <span> 1219 </span> '个' <a class="xiaoquCount" href="/xiaoqu/jiading/">嘉定小区</a> </h2> children的结果是一个可迭代对象： xiaoqu_num= 阅读全文

posted @ 2021-04-05 15:05 shang的学习园地阅读(1101) 评论(0) 推荐(0)

selenium模拟页面向下滚动加载全部页面

摘要：一些网站在访问时不会一次加载所有元素，需要下拉至底部后等待刷新更多元素出来，利用selenium执行js代码滚动页面，每次重新获取页面高度，直到页面高度不再变化。 js='return document.body.scrollHeight;'height=0while True: new_heigh 阅读全文

posted @ 2021-04-01 14:19 shang的学习园地阅读(3330) 评论(0) 推荐(0)

2021年3月

解决cmd运行py程序报错：ModuleNotFoundError: No module named 'selenium'

摘要：用spyder运行正常，程序上传到服务器，添加计划任务，运行报错：ModuleNotFoundError: No module named 'selenium'，实际上已经安装了。搜索一番，有人说程序前面加上： import sys import os curPath = os.path.absp 阅读全文

posted @ 2021-03-26 18:25 shang的学习园地阅读(914) 评论(0) 推荐(0)

如何给urllib.request.urlretrieve 加上header

摘要：目前知道的爬虫下载文件就是两种方式: urllib.request.urlretrieve，感觉这种更快？至少代码比较简洁，但是不能直接加header，遇到一些网站会直接拒绝 urllib.request.get 或者 requests.get 然后写入文件，可以直接加上header，因为reque 阅读全文

posted @ 2021-03-11 21:17 shang的学习园地阅读(1258) 评论(0) 推荐(1)

公告