方木--数据分析与挖掘

2017年10月9日

摘要：连接MongoDB. 去官网下载MongoDB，安装后。可以在C盘创建2个文件夹。C:\data\db,和C:\data\log。在log目录下新建一个文件，日志文件，mongodb.log MongoDB数据库文件设置。运行--cdm.exe 打开MongoDB所在的安装目录，MongoDB\ 阅读全文

posted @ 2017-10-09 16:41 方木--数据分析与挖掘阅读(299) 评论(0) 推荐(0)

2017年10月6日

python爬虫--模拟登录知乎

摘要： 1、处理登录表单处理登录表单可以分为2步：第一、查看网站登录的表单，构建POST请求的参数字典；第二、提交POST请求。打开知乎登录界面，https://www.zhihu.com/#signin，按f12，打开开发者界面：在这里面找到headers信息，现在在用户名和密码处查找信息，阅读全文

posted @ 2017-10-06 21:40 方木--数据分析与挖掘阅读(581) 评论(0) 推荐(0)

2017年10月5日

python爬虫--连接数据库1

摘要： 1、连接mysql 下载mysql，到官网下载。一路安装，设置好帐号密码。下载mysql的编译环境，Navicat；在Navicat创建数据库和表； python链接mysql，安装库，pip install mysqlclient。用pyrhon在mysql中创建的数据库leon中的url 阅读全文

posted @ 2017-10-05 18:47 方木--数据分析与挖掘阅读(3117) 评论(1) 推荐(0)

2017年10月4日

python爬虫--储存本地

摘要： 1、储存到txt 在桌面创建一个title.txt的文本， a+为读写模式，如果文件不存在，则创建一个文件。 2、读写txt中的数据得到的结果是：today is beautiful 集中打开文件的方式： r ：以只读方式打开文件，文件不存在则出错 w：以只写方式打开文件，文件存在则清空，不存在阅读全文

posted @ 2017-10-04 20:36 方木--数据分析与挖掘阅读(862) 评论(0) 推荐(0)

2017年10月2日

python爬虫--解析网页几种方法之BeautifulSoup

摘要：一.解析器概述对网页进行析取时，并未规定解析器，此时使用的是python内部默认的解析器“html.parser”。解析器是什么呢？ BeautifulSoup做的工作就是对html标签进行解释和分类，不同的解析器对相同html标签会做出不同解释。举个官方文档上的例子：官方文档上多次提到推荐阅读全文

posted @ 2017-10-02 21:08 方木--数据分析与挖掘阅读(2571) 评论(0) 推荐(0)

2017年9月30日

python爬虫--解析网页几种方法之正则表达式

摘要： 1、正则表达式正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。 re 模块使 Python 语言拥有全部的正则表达式功能。 re.match函数 re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。结阅读全文

posted @ 2017-09-30 17:19 方木--数据分析与挖掘阅读(5368) 评论(0) 推荐(0)

python爬虫--爬取豆瓣top250电影名

摘要：关于模拟浏览器登录的header，可以在相应网站按F12调取出编辑器，点击netwook，如下：以便于不会被网站反爬虫拒绝。 import requests from bs4 import BeautifulSoup def get_movies(): headers = { 'user-agen 阅读全文

posted @ 2017-09-30 11:35 方木--数据分析与挖掘阅读(1040) 评论(0) 推荐(0)

2017年9月29日

python爬虫--基本流程

摘要：基于python3的实现，获取网页的基础技术：request、urllib、selenium；解析网页的基础技术：re正则表达式、BeautifulSoup、和lxml；储存技术：数据库或者表格。 python环境搭建： 1、pycharm； 2、anaconda，适合基础入门，自带很多包，则无需安阅读全文

posted @ 2017-09-29 16:45 方木--数据分析与挖掘阅读(578) 评论(1) 推荐(0)

python爬虫--理论

摘要：网络爬虫定义： web spider，网络蜘蛛是通过网页的链接地址来寻找网页的。打开网页的过程其实就是浏览器作为一个浏览的“客户端”，向服务器端发送了一次请求，把服务器端的文件“抓”到本地，再进行解释、展现。HTML是一种标记语言，用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML 阅读全文

posted @ 2017-09-29 11:42 方木--数据分析与挖掘阅读(243) 评论(1) 推荐(0)

方木leon

公告