上一页 1 ··· 26 27 28 29 30 31 32 33 34 ··· 102 下一页
摘要: Tesseract的安装 windows安装包:https://digi.bib.uni-mannheim.de/tesseract/,最后一个是最新的。 默认安装路径 C:\Program Files (x86)\Tesseract-OCR, 将其添加到系统环境变量Path。 安装完成之后,在命令 阅读全文
posted @ 2020-01-17 16:20 Rogn 阅读(1878) 评论(0) 推荐(0)
摘要: 伪装头部是最基本的反反爬虫方法,下面假设我们有一个网站: from flask import Flask app = Flask(__name__) @app.route('/getInfo') def hello_world(): return "这里假装有很多数据" @app.route('/' 阅读全文
posted @ 2020-01-17 14:09 Rogn 阅读(1354) 评论(0) 推荐(0)
摘要: 安装可见 https://www.cnblogs.com/lfri/p/10542797.html 简单使用 百度自动搜索的例子: from selenium import webdriver driver = webdriver.Chrome() driver.get("https://www.b 阅读全文
posted @ 2020-01-17 12:05 Rogn 阅读(468) 评论(0) 推荐(0)
摘要: 在python中,常用的多线程的模块有这么几个 _thread threading Queue 之前有个 thread 模块,被 python3 抛弃了,改名为 _thread。 但其实 _thread 也没什么人用,因为 _thread 有的 threading 都有,_thread 没有的 th 阅读全文
posted @ 2020-01-17 10:32 Rogn 阅读(963) 评论(0) 推荐(0)
摘要: 在前面我们玩了好多静态的 HTML,但还有一些常见的动态数据,比如,商品的评论数据、实时的直播弹幕等,这些数据是会经常发生改变的,所以很多网站就会用到 Json 来传输这些数据。 Python JSON 可以用 json 模块, 1. 将 python 对象转化为 json是这样的 json.dum 阅读全文
posted @ 2020-01-16 21:21 Rogn 阅读(717) 评论(0) 推荐(0)
摘要: 简介 BeautifulSoup是一个高效的网页解析库,可以从 HTML 或 XML 文件中提取数据。 beautifulsoup支持不同的解析器,比如,对HTML解析,对XML解析,对HTML5解析。一般情况下,我们用的比较多的是 lxml 解析器。 当前最新的 Beautiful Soup 版本 阅读全文
posted @ 2020-01-16 16:56 Rogn 阅读(1619) 评论(0) 推荐(0)
摘要: 打开这个书籍排行榜的地址 http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-1,很容易就能定位到书籍信息: 难点在于如何写一个正则。。 直接看代码: import requests import re 阅读全文
posted @ 2020-01-16 16:11 Rogn 阅读(649) 评论(0) 推荐(0)
摘要: 这是一次爬虫尝试,涵盖TED到目前为止共4000+视频标题的提取,结果以文本格式存储,然后使用wordcloud词云库,生成可视化的云图。 TED演讲是啥? 官网地址:https://www.ted.com/ TED(指technology, entertainment, design在英语中的缩写 阅读全文
posted @ 2020-01-16 10:19 Rogn 阅读(600) 评论(0) 推荐(0)
摘要: 这个程序用来爬取我在博客园所有文章的标题,并用文件存起来。 from requests_html import HTMLSession base_url = 'https://www.cnblogs.com/lfri/default.html?page=' id = 1 def get_title( 阅读全文
posted @ 2020-01-15 21:04 Rogn 阅读(242) 评论(0) 推荐(0)
摘要: 安装 pip install requests-html 使用 官方文档:https://pypi.org/project/requests-html/ 获取网页 requests-html和其他解析HTML库最大的不同点在于HTML解析库一般都是专用的,所以我们需要用另一个HTTP库先把网页下载下 阅读全文
posted @ 2020-01-15 16:55 Rogn 阅读(1504) 评论(1) 推荐(1)
上一页 1 ··· 26 27 28 29 30 31 32 33 34 ··· 102 下一页