上一页 1 ··· 42 43 44 45 46 47 48 49 50 ··· 54 下一页
摘要: 问题1: 随机数列[12,5,8,7,8,9,4,8,5,...] 中出现次数最高的3个元素,他们出现的次数 问题2: 对某英文文章的单词,进行词频统计,找出出现次数最搞得10个单词,他们出现的次数是多少? 上面问题都是以字典的形式保存结果 如何解决问题1? 方法1: 方法2: 使用 collect 阅读全文
posted @ 2017-07-25 21:33 梦_鱼 阅读(271) 评论(0) 推荐(0)
摘要: 学生信息系统: (名字,年龄,性别,邮箱地址) 为了减少存储开支,每个学生的信息都以一个元组形式存放 如: ('tom', 18,'male','tom@qq.com' ) ('jom', 18,'mal','jom@qq.com' ) ....... 这种方式存放,如何访问呢? 普通方法: 出现问 阅读全文
posted @ 2017-07-25 20:06 梦_鱼 阅读(381) 评论(0) 推荐(0)
摘要: 实际问题有哪些? 问题1如何解决? 最普通方法: 如何解决列表问题? 初始化列表: 生成 -10 到 10 的随机数列表,去除负数 1. filter方法: 2. 列表解析: 运行速度比较:解析 > filter > 普通 如何解决字典? 字典解析,筛选数据: 如何解决集合问题? 逻辑整理 无论是解 阅读全文
posted @ 2017-07-25 19:50 梦_鱼 阅读(20921) 评论(0) 推荐(1)
摘要: # -*- coding: utf-8 -*- # Scrapy settings for JobBole project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting the ... 阅读全文
posted @ 2017-07-25 18:13 梦_鱼 阅读(183) 评论(0) 推荐(0)
摘要: 获取字段的存储处理和获取普通的路径 阅读全文
posted @ 2017-07-25 12:02 梦_鱼 阅读(155) 评论(0) 推荐(0)
摘要: 爬虫主逻辑处理,获取字段,获取主url和子url 阅读全文
posted @ 2017-07-25 11:59 梦_鱼 阅读(154) 评论(0) 推荐(0)
摘要: item中定义获取的字段和原始数据进行处理并合法化数据 阅读全文
posted @ 2017-07-25 11:55 梦_鱼 阅读(219) 评论(0) 推荐(0)
摘要: # !/usr/bin/python3 # -*- coding: utf-8 -*- import requests import gevent import pymysql from gevent import monkey # 堵塞标记 monkey.patch_all() class SqlSave(object): """协程方式写入数据库""" def... 阅读全文
posted @ 2017-07-22 23:02 梦_鱼 阅读(792) 评论(1) 推荐(0)
摘要: 软件运行环境是什么? python 3.50 -- 解释器 scrapy库 -- 爬虫框架 pymsql库 -- 连接mysql数据库 pillow库 -- 下载图片 目标网站是什么? 伯乐在线:http://blog.jobbole.com/ 所有的技术文章 需要爬取哪些数据? 文章对应的url 阅读全文
posted @ 2017-07-21 21:50 梦_鱼 阅读(215) 评论(0) 推荐(0)
摘要: 如何爬取? 明确目标:爬取百度百科,定初始百度词条:python,初始URL:http://baike.baidu.com/item/Python,爬取数据量为1000条,值爬取简介,标题,和简介中url 怎么爬: 利用谷歌开发工具,分析html结构,分析查询层次与方法 怎么写: 面向过程和面向对象两个方向环境声明: python 3.50 requests 库 beautifuls... 阅读全文
posted @ 2017-07-17 13:14 梦_鱼 阅读(669) 评论(0) 推荐(0)
上一页 1 ··· 42 43 44 45 46 47 48 49 50 ··· 54 下一页