爬虫 - 文章分类 - 不撞楠乔

对pdf有道翻译的图片爬取

摘要：如果访问https://pdf.youdao.com/ 登录导入pdf翻译然而导出翻译图片却需要付费，还有水印不如在环境变量的Path添加路径C:\selenium\AutomationProfile 键入win+R，输入cmd，输入chrome.exe --remote-debuggin 阅读全文

posted @ 2022-11-02 22:04 不撞楠乔阅读(163) 评论(0) 推荐(0)

python-selenium使用笔记

摘要：selenium是一个模拟人对浏览器操作的python第三方库，其爬取信息手段主要通过定位爬取字段在其html文件的xpath获得，进一步地，它能模拟人进行滑块验证操作、填写信息等攻破反爬虫措施。安装selenium 首先按win+R输入cmd，在DOS黑框里转到python文件的scripts 阅读全文

posted @ 2022-10-15 17:19 不撞楠乔阅读(95) 评论(0) 推荐(0)

python-requests基础爬虫（以知乎为例）

摘要：requests是比较基础、同时对于初学者比较抽象的爬虫方法；requests一般用于获取请求网页的html内容的response对象，我们可以对其response对象进行text文本化或者json序列化，以方便后续抽取信息的操作。（对知乎某话题评论文本的爬取需求来源于我大二上学期参加的市场调研比阅读全文

posted @ 2022-10-14 22:43 不撞楠乔阅读(1346) 评论(0) 推荐(0)

PaperMisty

文章分类 - 爬虫

公告