小项目 - 随笔分类 - 莫失莫忘csbh

使用scrapy爬取海外网学习频道

摘要：一：创建项目文件 1：首先在终端使用命令scrapy startproject huaerjieribao 创建项目 2:创建spider 首先cd进去刚刚创建的项目文件overseas 然后执行genspider,并写入爬虫名称和爬虫网站域名命令如下： cd overseas haiwaistu 阅读全文

posted @ 2018-11-19 17:05 莫失莫忘csbh 阅读(522) 评论(0) 推荐(0)

pyspider爬取tripadvisor

摘要：首先装pymongo,pyspider,具体安装方法不讲解，然后命令行下执行 pyspider all pyspider all 这句命令的意思是，运行 pyspider 并启动它的所有组件。可以发现程序已经正常启动，并在 5000 这个端口运行。下来在浏览器中输入 http://local 阅读全文

posted @ 2018-08-23 11:28 莫失莫忘csbh 阅读(620) 评论(0) 推荐(0)

京东模拟点击

摘要：# !/usr/bin/env python# -*- coding:utf-8 -*-from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.u 阅读全文

posted @ 2018-08-18 17:40 莫失莫忘csbh 阅读(357) 评论(0) 推荐(0)

使用常规方法爬取猫眼电影

摘要：1：首先确定要爬取的网站：爬取的url链接规律，请求方式时post还是get， 2：然后简单书写爬虫进行网页测试： 3：测试通过后，增加网页循环对爬取内容进行处理,然后方法一保存为txt格式，方法二保存为csv格式：使用进程池抓取：阅读全文

posted @ 2018-08-15 11:39 莫失莫忘csbh 阅读(737) 评论(0) 推荐(0)

豆瓣电影top250爬取并保存在MongoDB里

摘要：首先回顾一下MongoDB的基本操作： stringhashlistsetzset 增加mysql:insert into 表名(列) values(值)mongo:db.集合名.insert({}) 修改：mysql:update 表名 set 列=值 where 条件mongo:db.集合名.u 阅读全文

posted @ 2018-06-30 12:40 莫失莫忘csbh 阅读(631) 评论(0) 推荐(0)

微信说晚安

摘要：# !/usr/bin/env python# -*- coding:utf-8 -*-from __future__ import unicode_literalsfrom threading import Timerfrom wxpy import *import requests bot = 阅读全文

posted @ 2018-06-30 11:31 莫失莫忘csbh 阅读(484) 评论(0) 推荐(0)

莫失莫忘csbh

每个人心中都有一团火，路过的人只看到了烟！

随笔分类 - 小项目

公告