摘要: 4.如何管理环境? conda 可以为你不同的项目建立不同的运行环境。 0)安装nb_conda用于notebook自动关联nb_conda的环境。 <img src="https://pic1.zhimg.com/50/v2-cd28aeeaf8e69e8daba4e70009e59a62_hd. 阅读全文
posted @ 2019-08-15 12:01 Loser_King 阅读(124) 评论(0) 推荐(0) 编辑
摘要: # 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。 # # 丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 。 # 丁香园用户名:xxxx # 密码:ABcd1234 from selenium import webdriver import time from lxml import etree clas... 阅读全文
posted @ 2019-08-12 22:58 Loser_King 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 2.1 学习beautifulsoup 学习beautifulsoup,并使用beautifulsoup提取内容。 使用beautifulsoup提取丁香园论坛的回复内容。 2.2学习xpath 学习xpath,使用lxml+xpath提取内容。 使用xpath提取丁香园论坛的回复内容。 一、学习b 阅读全文
posted @ 2019-08-08 16:04 Loser_King 阅读(213) 评论(0) 推荐(0) 编辑
摘要: #使用requests、正则表达式,爬取豆瓣电影top250排行榜 #要求抓取名次、影片名称、年份、导演等字段。 import requests import re import csv import time class doubanTop250(): film_list = [] #1.发送请求 def send_request(self,url): ... 阅读全文
posted @ 2019-08-06 22:03 Loser_King 阅读(163) 评论(0) 推荐(0) 编辑
摘要: #需求:抓取猫眼电影TOP100的电影名称、时间、评分、图片等信息,提取的结果会以文件的形式保存下来 import requests import time from lxml import etree import json import csv import codecs class MaoYanTop100Spider: #存储电影详情页的url film_page_ur... 阅读全文
posted @ 2019-07-13 23:33 Loser_King 阅读(1419) 评论(0) 推荐(0) 编辑
摘要: 一、目的:爬取阳光视频网的多个视频,下载到本地 二、网站分析: 1.网站结构分为:视频列表页和视频详情页 2.右键检查视频列表网页: 发现:每条视频都是一个class叫"title-box"的div,然后视频详情页的链接在这个div下面的a标签 3.进入视频详情页,检查网页: 发现:视频地址在id为 阅读全文
posted @ 2019-07-09 13:36 Loser_King 阅读(957) 评论(0) 推荐(0) 编辑
摘要: (1)selenium一定安装驱动: Chrome浏览器的驱动安装地址:http://chromedriver.storage.googleapis.com/index.html 驱动一定要,安装相应浏览器的对应版本的驱动。下载之后,将驱动添加至当前路径 如果没有添加驱动,运行selenium程序会 阅读全文
posted @ 2019-07-06 10:02 Loser_King 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 基本概念: MangoDB数据库属于NoSQL(Not Only SQL),与之相对的就是RDBMS类型数据库,比如:mysql 二者的既有联系又有区别: (1)数据库database:二者是一样的 (2)集合Collection:相当于“表”table (3)文档document:相当于表中的“行 阅读全文
posted @ 2019-06-27 16:11 Loser_King 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 一、MongoDB的下载 到MongoDB的官网——https://www.mongodb.com/download-center/community,选择要下载的版本,点击Download 二、安装: (1)点击安装文件,一路next (2)启动服务端: (2.1)进入MongoDB的安装目录,然 阅读全文
posted @ 2019-06-25 06:10 Loser_King 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 一、load\loads\dump\dumps: 1.0 json介绍: (1)json是一种数据格式,外部是以大括号{}或者中括号[]包裹的文件类型 eg:[{"xxx": "1", "yyy": "2"}, {"xxx": "3", "yyy": "4"}, {"xxx": "5", "yyy" 阅读全文
posted @ 2019-06-12 10:44 Loser_King 阅读(193) 评论(0) 推荐(0) 编辑