随笔分类 - 爬虫
摘要:利用 Google 搜索人物姓名,Google 通常会在展示知名人物搜索结果的同时,在右侧以一个小卡片的形式展示人物的维基百科简介以及照片等内容,这里的照片可以抓取下来; 利用百度 AI 提供的人脸检测 API,将人物的照片通过 API 识别人物的性别,百度的人脸检测 API 每天免费提供了1000次的使用次数,可以完成较小规模数据的人脸检测人物。
阅读全文
摘要:在百度中搜索得到的结果的连接不是网站的真实链接,使用Http Head 可以快速地获取真实链接。
阅读全文
摘要:简介朋友问我能不能做一个下载他在豆瓣读书上的短评的工具,于是就做了这个“豆瓣用户读书短评下载工具”。 GitHub链接:https://github.com/xiaff/dbc-downloader。这个小工具使用Python3.4编写,其工作流程为:用户输入其豆瓣ID;抓取用户评论列表网页对网页进...
阅读全文
摘要:前言由于之后要做一个实验,需要用到大量豆瓣用户的电影数据,因此想到了从豆瓣电影的“看过这部电影 的豆瓣成员”页面上来获取较为活跃的豆瓣电影用户。链接分析这是看过"模仿游戏"的豆瓣成员的网页链接:http://movie.douban.com/subject/10463953/collections。...
阅读全文

浙公网安备 33010602011771号