摘要:虽然微博官方有Python SDK,但是下载链接竟然失效了??,再Pypi找到一个库——weibo. 安装weibo库 pip install weibo 报错 “ERROR: Command errored out with exit status 1: python setup.py egg_i 阅读全文
posted @ 2020-01-17 22:40 Rogn 阅读 (1) 评论 (0) 编辑
摘要:分析 一般地,QQ空间可以通过手机QQ扫码登录和账号密码登录。但是账号密码登录有时候需要验证码,为了保证登录的成功率,我们选择扫码登录的方式。 首先,进入登录界面: https://xui.ptlogin2.qq.com/cgi-bin/xlogin?proxy_url=https://qzs.qq 阅读全文
posted @ 2020-01-17 20:54 Rogn 阅读 (4) 评论 (0) 编辑
摘要:Tesseract的安装 windows安装包:https://digi.bib.uni-mannheim.de/tesseract/,最后一个是最新的。 默认安装路径 C:\Program Files (x86)\Tesseract-OCR, 将其添加到系统环境变量Path。 安装完成之后,在命令 阅读全文
posted @ 2020-01-17 16:20 Rogn 阅读 (3) 评论 (0) 编辑
摘要:伪装头部是最基本的反反爬虫方法,下面假设我们有一个网站: from flask import Flask app = Flask(__name__) @app.route('/getInfo') def hello_world(): return "这里假装有很多数据" @app.route('/' 阅读全文
posted @ 2020-01-17 14:09 Rogn 阅读 (5) 评论 (0) 编辑
摘要:安装可见 https://www.cnblogs.com/lfri/p/10542797.html 简单使用 百度自动搜索的例子: from selenium import webdriver driver = webdriver.Chrome() driver.get("https://www.b 阅读全文
posted @ 2020-01-17 12:05 Rogn 阅读 (4) 评论 (0) 编辑
摘要:在python中,常用的多线程的模块有这么几个 _thread threading Queue 之前有个 thread 模块,被 python3 抛弃了,改名为 _thread。 但其实 _thread 也没什么人用,因为 _thread 有的 threading 都有,_thread 没有的 th 阅读全文
posted @ 2020-01-17 10:32 Rogn 阅读 (7) 评论 (0) 编辑
摘要:在前面我们玩了好多静态的 HTML,但还有一些常见的动态数据,比如,商品的评论数据、实时的直播弹幕等,这些数据是会经常发生改变的,所以很多网站就会用到 Json 来传输这些数据。 Python JSON 可以用 json 模块, 1. 将 python 对象转化为 json是这样的 json.dum 阅读全文
posted @ 2020-01-16 21:21 Rogn 阅读 (6) 评论 (0) 编辑
摘要:简介 BeautifulSoup是一个高效的网页解析库,可以从 HTML 或 XML 文件中提取数据。 beautifulsoup支持不同的解析器,比如,对HTML解析,对XML解析,对HTML5解析。一般情况下,我们用的比较多的是 lxml 解析器。 当前最新的 Beautiful Soup 版本 阅读全文
posted @ 2020-01-16 16:56 Rogn 阅读 (4) 评论 (0) 编辑
摘要:打开这个书籍排行榜的地址 http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-1,很容易就能定位到书籍信息: 难点在于如何写一个正则。。 直接看代码: import requests import re 阅读全文
posted @ 2020-01-16 16:11 Rogn 阅读 (6) 评论 (0) 编辑
摘要:这是一次爬虫尝试,涵盖TED到目前为止共4000+视频标题的提取,结果以文本格式存储,然后使用wordcloud词云库,生成可视化的云图。 TED演讲是啥? 官网地址:https://www.ted.com/ TED(指technology, entertainment, design在英语中的缩写 阅读全文
posted @ 2020-01-16 10:19 Rogn 阅读 (9) 评论 (0) 编辑