爬虫 - 随笔分类 - 武老师

评论抓取：Python爬取微信在APPStore上的评论内容及星级

摘要：#完整程序如下： import requests import re def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except... 阅读全文

posted @ 2018-06-21 18:13 武老师阅读(2993) 评论(1) 推荐(0)

Python模块学习之bs4

摘要：1、安装bs4 我用的ubuntu14.4，直接用apt-get命令就行 sudo apt-get install Python-bs4 2、安装解析器 Beautiful Soup支持Python标准库中的HTML解析器，还支持一些第三方的解析器，其中一个是lxml。 sudo apt-get i 阅读全文

posted @ 2018-02-07 18:21 武老师阅读(4132) 评论(0) 推荐(0)

采集淘宝美人库

摘要：爬虫一共就四个主要步骤： 1、明确目标：明确需要抓取那些内容，在哪个网页2、爬：分析网站结构，将所有的网站的内容全部爬下来3、取：提取我们所需要的数据4、处理数据：按照需求存储使用第一步：明确目标：网站url: https://mm.taobao.com/search_tstar_model.h 阅读全文

posted @ 2018-02-06 22:40 武老师阅读(827) 评论(0) 推荐(0)

R_超

随笔分类 - 爬虫

公告