Ray_chen

2018年7月29日

摘要： import re from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait fr... 阅读全文

posted @ 2018-07-29 17:10 Ray_chen 阅读(310) 评论(0) 推荐(0)

2018年7月27日

分词及词云图设计

摘要：１.jieba的基本使用 1 import jieba 2 3 4 s1 = '我喜欢广州小蛮腰' 5 s2 = "我喜欢上海东方明珠" 6 #jieba,cut()#默认精准模式 7 print(10*'-','全模式',10*'-') 8 r1 = jieba.cut(s1,cut_all=Tr 阅读全文

posted @ 2018-07-27 13:28 Ray_chen 阅读(1149) 评论(0) 推荐(0)

算法梳理

摘要：冒泡插入选择阅读全文

posted @ 2018-07-27 11:36 Ray_chen 阅读(143) 评论(0) 推荐(0)

数据存储

摘要： mongo 1 """ 2 使用pymongo库操作MongoDB数据库 3 """ 4 import pymongo 5 6 # 1.连接数据库服务器,获取客户端对象 7 mongo_client=pymongo.MongoClient('localhost',27017) 8 9 # 2.获取数阅读全文

posted @ 2018-07-27 11:33 Ray_chen 阅读(245) 评论(0) 推荐(0)

list，tuple,set,dict基础

摘要： list 1 # @Auther : chen 2 # @Time : 2018/4/26 19:55 3 # @File : list_ex.py 4 # @SoftWare : PyCharm 5 6 # list1 = [1,2,3,4,5,6,7,8,9,0] 7 # random.shuf 阅读全文

posted @ 2018-07-27 11:23 Ray_chen 阅读(212) 评论(0) 推荐(0)

爬虫相关基础知识梳理

摘要： 1 from pyquery import PyQuery as pq 2 3 # url初始化 4 # html = '' 5 # doc = pq(html) 6 url = 'https://www.baidu.com' 7 doc = pq(url=url) 8 print(doc('hea 阅读全文

posted @ 2018-07-27 10:10 Ray_chen 阅读(170) 评论(0) 推荐(0)

多线程爬取猫眼电影TOP100并保存到mongo数据库中

摘要： 1 import requests 2 import re 3 import json 4 from requests.exceptions import RequestException 5 from multiprocessing import Pool 6 7 #　获取网页 8 def get_one_page(url): 9 headers = { 10 ... 阅读全文

posted @ 2018-07-27 10:04 Ray_chen 阅读(226) 评论(0) 推荐(0)

爬取淘宝商品数据并保存在excel中

摘要：１.re实现 1 import requests 2 from requests.exceptions import RequestException 3 import re,json 4 import xlwt,xlrd 5 6 # 数据 7 DATA = [] 8 KEYWORD = 'pyth 阅读全文

posted @ 2018-07-27 02:24 Ray_chen 阅读(3324) 评论(0) 推荐(0)

2018年7月26日

爬取前尘无忧python职位信息并保存到mongo数据库

摘要：１．re实现 1 import re,os 2 import requests 3 from requests.exceptions import RequestException 4 5 MAX_PAGE = 10 #最大页数 6 KEYWORD = 'python' 7 headers = { 阅读全文

posted @ 2018-07-26 19:12 Ray_chen 阅读(318) 评论(0) 推荐(0)

公告