随笔分类 - 数据分析与挖掘
摘要:https://github.com/tesseract-ocr/tesseract https://github.com/tesseract-ocr/tessdata 字体识别训练库 https://github.com/rmtheis/tess-two 一个对tesseract库进行了增强的包装
阅读全文
摘要:from scipy.signal import savgol_filter import matplotlib.pyplot as plt cc = savgol_filter(c, 99, 1) plt.plot(c)plt.plot(cc)plt.show() from matplotlib.collections import LineCollection import numpy a...
阅读全文
摘要:scrapy 抓取网页并存入 mongodb的完整示例: https://github.com/rmax/scrapy-redis https://github.com/geekan/scrapy-examples # Multifarious(多样的) Scrapy examples. https
阅读全文
摘要:scrapy + celery: Scrapy原生不支持js渲染,需要单独下载[scrapy-splash](GitHub - scrapy-plugins/scrapy-splash: Scrapy+Splash for JavaScript integration), scrapy建议和Beau
阅读全文
摘要:awesome-machine-learning: https://github.com/josephmisiti/awesome-machine-learning
阅读全文
摘要:话说在尝试设置download_delay小于1,并且无任何其他防止被ban的策略之后,我终于成功的被ban了。 关于scrapy的使用可参见之前文章: http://blog.csdn.net/u012150179/article/details/34913315 http://blog.csdn
阅读全文
摘要:http://segmentfault.com/q/1010000002404545 技术站点 Hacker News:非常棒的针对编程的链接聚合网站 Programming reddit:同上 MSDN:微软相关的官方技术集中地,主要是文档类 infoq:企业级应用,关注软件开发领域 OSChin
阅读全文
摘要:Knowledge Graph大规模数据处理:hadoop、spark[Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala...
阅读全文
浙公网安备 33010602011771号