随笔档案「2016年8月18日」：网络爬虫: 从allitebooks.com抓取书籍信息... - backslash112

2016年8月18日

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码

摘要：这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码。一、分析需求和网站结构 allitebooks.com这个网站的结构很简单，分页＋书籍列表＋书籍详情页。要想得到书籍的详细信息和ISBN码，我们需要遍历所有的页码，进入到书籍列表，然后从书籍列表进入到每本阅读全文

posted @ 2016-08-18 21:38 backslash112 阅读(2191) 评论(3) 推荐(1)

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup

摘要：开始学习网络数据挖掘方面的知识，首先从Beautiful Soup入手（Beautiful Soup是一个Python库，功能是从HTML和XML中解析数据），打算以三篇博文纪录学习Beautiful Soup的过程，第一篇是Beautiful Soup基础知识，后两篇利用前边的Beautiful 阅读全文

posted @ 2016-08-18 15:35 backslash112 阅读(3789) 评论(0) 推荐(2)

backlash112

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup

导航

公告