Rogn

2020年1月17日

摘要： Tesseract的安装 windows安装包：https://digi.bib.uni-mannheim.de/tesseract/，最后一个是最新的。默认安装路径 C:\Program Files (x86)\Tesseract-OCR，将其添加到系统环境变量Path。安装完成之后，在命令阅读全文

posted @ 2020-01-17 16:20 Rogn 阅读(1893) 评论(0) 推荐(0)

爬虫伪装头部

摘要：伪装头部是最基本的反反爬虫方法，下面假设我们有一个网站： from flask import Flask app = Flask(__name__) @app.route('/getInfo') def hello_world(): return "这里假装有很多数据" @app.route('/' 阅读全文

posted @ 2020-01-17 14:09 Rogn 阅读(1369) 评论(0) 推荐(0)

selenium的简单使用

摘要：安装可见 https://www.cnblogs.com/lfri/p/10542797.html 简单使用百度自动搜索的例子： from selenium import webdriver driver = webdriver.Chrome() driver.get("https://www.b 阅读全文

posted @ 2020-01-17 12:05 Rogn 阅读(476) 评论(0) 推荐(0)

python多线程和线程池

摘要：在python中，常用的多线程的模块有这么几个 _thread threading Queue 之前有个 thread 模块，被 python3 抛弃了，改名为 _thread。但其实 _thread 也没什么人用，因为 _thread 有的 threading 都有，_thread 没有的 th 阅读全文

posted @ 2020-01-17 10:32 Rogn 阅读(968) 评论(0) 推荐(0)

2020年1月16日

分析微信好友列表信息（json）

摘要：在前面我们玩了好多静态的 HTML，但还有一些常见的动态数据，比如，商品的评论数据、实时的直播弹幕等，这些数据是会经常发生改变的，所以很多网站就会用到 Json 来传输这些数据。 Python JSON 可以用 json 模块， 1. 将 python 对象转化为 json是这样的 json.dum 阅读全文

posted @ 2020-01-16 21:21 Rogn 阅读(725) 评论(0) 推荐(0)

BeautifulSoup简介

摘要：简介 BeautifulSoup是一个高效的网页解析库，可以从 HTML 或 XML 文件中提取数据。 beautifulsoup支持不同的解析器，比如，对HTML解析，对XML解析，对HTML5解析。一般情况下，我们用的比较多的是 lxml 解析器。当前最新的 Beautiful Soup 版本阅读全文

posted @ 2020-01-16 16:56 Rogn 阅读(1624) 评论(0) 推荐(0)

爬取当当网 Top 500 本五星好评书籍

摘要：打开这个书籍排行榜的地址 http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-1，很容易就能定位到书籍信息：难点在于如何写一个正则。。直接看代码： import requests import re 阅读全文

posted @ 2020-01-16 16:11 Rogn 阅读(668) 评论(0) 推荐(0)

TED-WordCloud: 4000+视频标题词云分析

摘要：这是一次爬虫尝试，涵盖TED到目前为止共4000+视频标题的提取，结果以文本格式存储，然后使用wordcloud词云库，生成可视化的云图。 TED演讲是啥？官网地址：https://www.ted.com/ TED（指technology, entertainment, design在英语中的缩写阅读全文

posted @ 2020-01-16 10:19 Rogn 阅读(611) 评论(0) 推荐(0)

2020年1月15日

记第一个爬虫

摘要：这个程序用来爬取我在博客园所有文章的标题，并用文件存起来。 from requests_html import HTMLSession base_url = 'https://www.cnblogs.com/lfri/default.html?page=' id = 1 def get_title( 阅读全文

posted @ 2020-01-15 21:04 Rogn 阅读(243) 评论(0) 推荐(0)

requests-html简介

摘要：安装 pip install requests-html 使用官方文档：https://pypi.org/project/requests-html/ 获取网页 requests-html和其他解析HTML库最大的不同点在于HTML解析库一般都是专用的，所以我们需要用另一个HTTP库先把网页下载下阅读全文

posted @ 2020-01-15 16:55 Rogn 阅读(1525) 评论(1) 推荐(1)

公告