随笔分类 -  CRAWL

爬虫数据采集与可视化
摘要:第一次爬取虎牙主播数据,有点小激动 1.共批量爬取的101个主播的,包括 头像 主播名字 房间号 房间链接 2.数据规整部分,需要将json数据加载到pandas的Dataframe,只显示的前15个主播的信息 3.数据绘图部分,有一个字体问题没解决,中文乱码,明日修正 阅读全文
posted @ 2018-10-14 23:37 天波-风客 阅读(505) 评论(0) 推荐(0)
摘要:1.scrapy框架 Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫 阅读全文
posted @ 2018-10-04 22:03 天波-风客 阅读(570) 评论(0) 推荐(0)