—super—

pytesseract文字识别

摘要： import pytesseract from PIL import Image im=Image.open('image.png') print(pytesseract.image_to_string(im))安装注意：环境变量需要配置两处 1、path 2、TESSDATA_PREFIX初始路径 pytesseract.pytesseract.tesseract_cmd = 'd://Tes 阅读全文

posted @ 2019-11-29 12:24 —super— 阅读(345) 评论(0) 推荐(0)

spacy词向量

摘要： spaCy能够比较两个对象，并预测它们的相似程度。预测相似性对于构建推荐系统或标记重复项很有用。例如，您可以建议与当前正在查看的用户内容相似的用户内容，或者将支持凭单标记为与现有内容非常相似的副本。每个Doc、Span和Token都有一个.similarity()方法，它允许您将其与另一个对象阅读全文

posted @ 2019-08-08 11:41 —super— 阅读(1421) 评论(0) 推荐(0)

spacy

摘要：官方文档： https://spacy.io/api Spacy功能简介可以用于进行分词，命名实体识别，词性识别等等，但是首先需要下载预训练模型 pip install --user spacy python -m spacy download en_core_web_sm pip install 阅读全文

posted @ 2019-08-06 17:39 —super— 阅读(866) 评论(0) 推荐(0)

gensim

摘要：官方文档： https://radimrehurek.com/gensim/models/word2vec.html 1、训练模型定义参数解释： 1.sg=1是skip-gram算法，对低频词敏感；默认sg=0为CBOW算法。 2.size是输出词向量的维数，值太小会导致词映射因为冲突而影响结果，阅读全文

posted @ 2019-08-06 15:07 —super— 阅读(453) 评论(0) 推荐(0)

pkuseg

摘要： git-url: https://github.com/lancopku/PKUSeg-python pkuseg：一个多领域中文分词工具包 pkuseg简单易用，支持细分领域分词，有效提升了分词准确度。主要亮点 pkuseg具有如下几个特点：编译和安装目前仅支持python3 为了获得好的效阅读全文

posted @ 2019-08-01 11:51 —super— 阅读(933) 评论(0) 推荐(0)

jieba原理

摘要：一、jieba介绍jieba库是一个简单实用的中文自然语言处理分词库。 jieba分词属于概率语言模型分词。概率语言模型分词的任务是：在全切分所得的所有结果中求某个切分方案S，使得P(S)最大。 jieba支持三种分词模式：全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决阅读全文

posted @ 2019-07-30 14:29 —super— 阅读(2874) 评论(0) 推荐(1)

jieba初

摘要： url: https://github.com/fxsjy/jieba/blob/master/ jieba “结巴”中文分词：做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built 阅读全文

posted @ 2019-07-30 14:25 —super— 阅读(146) 评论(0) 推荐(0)

selenium

摘要：一介绍官网：http://selenium-python.readthedocs.io 二安装 #安装：selenium+chromedriver pip3 install selenium 下载chromdriver.exe放到python安装路径的scripts目录中即可，注意最新版本是2 阅读全文

posted @ 2017-12-22 09:49 —super— 阅读(264) 评论(0) 推荐(0)

Memcache,redis，rabbitMQ,SQLAlchemy

摘要： Memcached Memcached 是一个高性能的分布式内存对象缓存系统，用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数，从而提高动态、数据库驱动网站的速度。Memcached基于一个存储键/值对的hashmap。其守护进程（daemon ）是用C写的，但阅读全文

posted @ 2017-12-19 17:03 —super— 阅读(156) 评论(0) 推荐(0)

scrapy

摘要： Scrapy Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Ser 阅读全文

posted @ 2017-12-13 19:20 —super— 阅读(219) 评论(0) 推荐(0)

公告