会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
方木leon
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
2017年10月9日
python爬虫--连接数据库2
摘要: 连接MongoDB. 去官网下载MongoDB,安装后。 可以在C盘创建2个文件夹。C:\data\db,和C:\data\log。在log目录下新建一个文件,日志文件,mongodb.log MongoDB数据库文件设置。 运行--cdm.exe 打开MongoDB所在的安装目录,MongoDB\
阅读全文
posted @ 2017-10-09 16:41 方木--数据分析与挖掘
阅读(281)
评论(0)
推荐(0)
2017年10月6日
python爬虫--模拟登录知乎
摘要: 1、处理登录表单 处理登录表单可以分为2步: 第一、查看网站登录的表单,构建POST请求的参数字典; 第二、提交POST请求。 打开知乎登录界面,https://www.zhihu.com/#signin, 按f12,打开开发者界面: 在这里面找到headers信息, 现在在用户名和密码处查找信息,
阅读全文
posted @ 2017-10-06 21:40 方木--数据分析与挖掘
阅读(548)
评论(0)
推荐(0)
2017年10月5日
python爬虫--连接数据库1
摘要: 1、连接mysql 下载mysql,到官网下载。一路安装,设置好帐号密码。 下载mysql的编译环境,Navicat; 在Navicat创建数据库和表; python链接mysql, 安装库,pip install mysqlclient。 用pyrhon在mysql中创建的数据库leon中的url
阅读全文
posted @ 2017-10-05 18:47 方木--数据分析与挖掘
阅读(3095)
评论(1)
推荐(0)
2017年10月4日
python爬虫--储存本地
摘要: 1、储存到txt 在桌面创建一个title.txt的文本, a+为读写模式,如果文件不存在,则创建一个文件。 2、读写txt中的数据 得到的结果是:today is beautiful 集中打开文件的方式: r : 以只读方式打开文件,文件不存在则出错 w:以只写方式打开文件,文件存在则清空,不存在
阅读全文
posted @ 2017-10-04 20:36 方木--数据分析与挖掘
阅读(843)
评论(0)
推荐(0)
2017年10月2日
python爬虫--解析网页几种方法之BeautifulSoup
摘要: 一.解析器概述 对网页进行析取时,并未规定解析器,此时使用的是python内部默认的解析器“html.parser”。 解析器是什么呢? BeautifulSoup做的工作就是对html标签进行解释和分类,不同的解析器对相同html标签会做出不同解释。 举个官方文档上的例子: 官方文档上多次提到推荐
阅读全文
posted @ 2017-10-02 21:08 方木--数据分析与挖掘
阅读(2541)
评论(0)
推荐(0)
2017年9月30日
python爬虫--解析网页几种方法之正则表达式
摘要: 1、正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 re 模块使 Python 语言拥有全部的正则表达式功能。 re.match函数 re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。 结
阅读全文
posted @ 2017-09-30 17:19 方木--数据分析与挖掘
阅读(5349)
评论(0)
推荐(0)
python爬虫--爬取豆瓣top250电影名
摘要: 关于模拟浏览器登录的header,可以在相应网站按F12调取出编辑器,点击netwook,如下: 以便于不会被网站反爬虫拒绝。 import requests from bs4 import BeautifulSoup def get_movies(): headers = { 'user-agen
阅读全文
posted @ 2017-09-30 11:35 方木--数据分析与挖掘
阅读(996)
评论(0)
推荐(0)
2017年9月29日
python爬虫--基本流程
摘要: 基于python3的实现,获取网页的基础技术:request、urllib、selenium;解析网页的基础技术:re正则表达式、BeautifulSoup、和lxml;储存技术:数据库或者表格。 python环境搭建: 1、pycharm; 2、anaconda,适合基础入门,自带很多包,则无需安
阅读全文
posted @ 2017-09-29 16:45 方木--数据分析与挖掘
阅读(558)
评论(1)
推荐(0)
python爬虫--理论
摘要: 网络爬虫定义: web spider,网络蜘蛛是通过网页的链接地址来寻找网页的。 打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。HTML是一种标记语言,用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML
阅读全文
posted @ 2017-09-29 11:42 方木--数据分析与挖掘
阅读(223)
评论(1)
推荐(0)
上一页
1
2
3
4
5
公告