摘要: 例子是来自基于深度学习的特定领域命名实体识别课题介绍如何利用原始数据生成测试集、训练集、验证集(看注释)这其中字典的价值很重要,需要自己创建(这里想到的是利用爬虫技术获取) #如何利用原始数据生成测试集、训练集、验证集 #encoding=utf8 import os,jieba,csv import jieba.posseg as pseg #os.getcwd()获取当前的工作路径,os.... 阅读全文
posted @ 2018-08-16 18:07 bep_code 阅读(1570) 评论(0) 推荐(0) 编辑
摘要: 转载来源:http://www.cnblogs.com/pinard/p/7160330.html word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。虽然源码是开源的,但是谷歌的代码库国内无法 阅读全文
posted @ 2018-08-06 17:54 bep_code 阅读(1839) 评论(0) 推荐(0) 编辑
摘要: 1.TF-IDF介绍 TF/IDF(term frequency–inverse document frequency)用以评估字词 对于一个文件集其中一份文件的重要程度。字词的重要性随着它在文件中出 现的次数成正比增加,随着它在语料库中出现的频率下降。注意前后的中心词不一样。 • 词频 (term 阅读全文
posted @ 2018-08-06 15:48 bep_code 阅读(814) 评论(0) 推荐(0) 编辑
摘要: 1.N-Gram的介绍 N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关(这也是隐马尔可夫当中的假设)。整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。通常N-Gram取自文本或语料库。 N=1时称为unigram,N=2称为bi 阅读全文
posted @ 2018-08-06 14:49 bep_code 阅读(9305) 评论(0) 推荐(0) 编辑
摘要: Scrapy单机架构 在这里scrapy的核心是scrapy引擎,它通过里面的一个调度器来调度一个request的队列,将request发给downloader,然后来执行request请求 但是这些request队列都是维持在本机上的,因此如果要多台主机协同爬取,需要一个request共享的机制— 阅读全文
posted @ 2018-08-02 18:48 bep_code 阅读(1072) 评论(0) 推荐(0) 编辑
摘要: 1.设置ROBOTSTXT_OBEY,由true变为false 2.设置DEFAULT_REQUEST_HEADERS,将其改为request headers 3.根据请求链接,发出第一个请求,设置一个start_request方法,并在方法中定义相关的配置,比如在本例中设置搜索的关键字keyword 4.接下来定义一个链接,也就是start_url,本例中改为search_url,其中把bas... 阅读全文
posted @ 2018-07-17 18:41 bep_code 阅读(2630) 评论(3) 推荐(0) 编辑
摘要: #利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException import re import json from multiprocessing import Pool def get_one_page(url): try: #需要重置r... 阅读全文
posted @ 2018-05-25 15:29 bep_code 阅读(462) 评论(0) 推荐(0) 编辑
摘要: 一.requests的常用请求方式 二.基于get请求 1.基本请求 2.带参数的GET请求->headers 三、基于post的请求 #GET请求HTTP默认的请求方法就是GET * 没有请求体 * 数据必须在1K之内! * GET请求数据会暴露在浏览器的地址栏中 GET请求常用的操作: 1. 在 阅读全文
posted @ 2018-05-21 16:04 bep_code 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 一、爬虫基本原理 1.获取网络数据 用户方式:浏览器提交请求->下载网页代码->解析/渲染成页面 爬虫方式:模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 2.爬虫的基本原理 向网站发起请求,获取资源后分析并提取有用数据的程序 3.爬虫的基本流程 #1、发起请求使用h 阅读全文
posted @ 2018-05-21 15:05 bep_code 阅读(507) 评论(0) 推荐(0) 编辑
摘要: 内置模块是Python自带的功能,在使用内置模块相应的功能时,需要【先导入】再【使用】 一、time模块 在Python中,通常有这几种方式来表示时间: 时间戳(timestamp):通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量。我们运行“type(time.ti 阅读全文
posted @ 2018-04-14 12:37 bep_code 阅读(210) 评论(0) 推荐(0) 编辑