文章分类 -  爬虫

python爬虫笔记
摘要:如果 访问https://pdf.youdao.com/ 登录 导入pdf翻译 然而导出翻译图片却需要付费,还有水印 不如 在环境变量的Path添加路径C:\selenium\AutomationProfile 键入win+R,输入cmd,输入chrome.exe --remote-debuggin 阅读全文
posted @ 2022-11-02 22:04 不撞楠乔 阅读(150) 评论(0) 推荐(0)
摘要:selenium是一个模拟人对浏览器操作的python第三方库,其爬取信息手段主要通过定位爬取字段在其html文件的xpath获得,进一步地,它能模拟人进行滑块验证操作、填写信息等 攻破反爬虫措施。 安装selenium 首先按win+R输入cmd,在DOS黑框里转到python文件的scripts 阅读全文
posted @ 2022-10-15 17:19 不撞楠乔 阅读(91) 评论(0) 推荐(0)
摘要:requests是比较基础、同时对于初学者比较抽象的爬虫方法;requests一般用于获取请求网页的html内容的response对象,我们可以对其response对象进行text文本化或者json序列化,以方便后续抽取信息的操作。 (对知乎某话题评论文本的爬取需求来源于我大二上学期参加的市场调研比 阅读全文
posted @ 2022-10-14 22:43 不撞楠乔 阅读(1329) 评论(0) 推荐(0)