摘要: 工作以来,我鲜有时间停下来做一些总结,偶有所得也是记录在公司内部的文档里。我细细想来,发现原因主要是这份工作实在是有些螺丝钉了,脱离了公司的环境就很难成立。去年10月底以来,我开始报班培训C++,为什么要这样做呢? 1. 因为我发现大厂的算法工程师很容易变成“螺丝钉”,数据、训练和部署的环境都是现成 阅读全文
posted @ 2023-06-21 22:19 眺望海接天 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 当我刚开始学习使用scikit-learn时,总是会出现各种各样的包依赖问题,兜兜转转了一遍才全部安装好,现在的机器学习算法开发者大都使用tensorflow、pytorch来实现自己的想法,但依然会面临各种包版本和依赖的问题,有一段时间我使用virtulenv来解决python版本的问题。前几天升 阅读全文
posted @ 2019-05-05 21:48 眺望海接天 阅读(3925) 评论(0) 推荐(0) 编辑
摘要: 描述word2vec并行实现的小贴士 阅读全文
posted @ 2014-02-07 14:41 眺望海接天 阅读(4388) 评论(2) 推荐(0) 编辑
摘要: 本篇综述主要参考了Liu Bing的《Sentiment analysis and opinion mining》,增加了一些自己的观点。Liu B. Sentiment analysis and opinion mining[J]. Synthesis Lectures on Human Language Technologies, 2012, 5(1): 1-167.摘要近年来微博等用户自媒体的爆炸式增长,使得利用计算机挖掘网民意见不但变得可行,而且变得必须。这其中很重要的一项任务就是挖掘网民意见所讨论的对象,即评价对象。本文概览了目前主流的提取技术,包括名词短语的频繁项挖掘、评价词的映射 阅读全文
posted @ 2013-12-03 09:47 眺望海接天 阅读(4611) 评论(0) 推荐(2) 编辑
摘要: 在统计学习中,转导推理(Transductive Inference)是一种通过观察特定的训练样本,进而预测特定的测试样本的方法。另一方面,归纳推理(Induction Inference)先从训练样本中学习得到通过的规则,再利用规则判断测试样本。然而有些转导推理的预测无法由归纳推理获得,这是因为转导推理在不同的测试集上会产生相互不一致的预测,这也是最令转导推理的学者感兴趣的地方。 归纳推理中的一个经典方法是贝叶斯决策,通过求解P(Y|X)=P(X|Y)P(Y)/P(X)得到从样本X到类别Y的概率分布P(Y|X),进而使用P(Y|X)预测测试样本的类别。这一过程的缺点在于,在预测某一测试... 阅读全文
posted @ 2013-11-14 20:29 眺望海接天 阅读(14857) 评论(2) 推荐(5) 编辑
摘要: 此文为David M. Blei所写的《Introduction to Probabilistic Topic Models》的译文,供大家参考。摘要:概率主题模型是一系列旨在发现隐藏在大规模文档中的主题结构的算法。本文首先回顾了这一领域的主要思想,接着调研了当前的研究水平,最后展望某些有所希望的方向。从最简单的主题模型——潜在狄立克雷分配(Latent Dirichlet Allocation,LDA)出发,讨论了其与概率建模的联系,描述了用于主题发现的两种算法。主题模型日新月异,被扩展和应用许多领域,其中不乏有趣之处。我们调研发现很多扩展都弱化了LDA的统计假设,加入元数据(meta-da 阅读全文
posted @ 2013-01-30 08:41 眺望海接天 阅读(18180) 评论(1) 推荐(4) 编辑
摘要: 简单来说就是直接使用MathJax提供的JavaScript文件来生成数学公式。具体来说就是在页首加入粘贴如下JavaScript代码:<script type="text/x-mathjax-config">MathJax.Hub.Config({ extensions: ["tex2jax.js"], jax: ["input/TeX", "output/HTML-CSS"], tex2jax: { inlineMath: [ ['$','$'], ["\\ 阅读全文
posted @ 2013-01-22 16:54 眺望海接天 阅读(1237) 评论(3) 推荐(2) 编辑
摘要: 近年来,随着互联网数据的日益增长,管理分布式数据需求的日益增加,Bigtable[1]等一系列NoSQL数据库开始涌现。Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据,其在提供Tablet服务时使用内存中的memtable和GFS[2]中的SSTable来相互配合着来存储数据更新,其中存储和更新的方法与日志结构的合并树[3](Log-Structured Merge-Tree,LSM-tree)类似,并以其为基础。Log-Structured的思想最早由 Rosenblum和Ousterhout[4]于1992年在研究日志结构的文件系统时提出。他们将整个磁盘就看做是 阅读全文
posted @ 2013-01-12 21:55 眺望海接天 阅读(25616) 评论(2) 推荐(5) 编辑
摘要: 玫瑰 阅读全文
posted @ 2013-01-11 18:37 眺望海接天 阅读(565) 评论(0) 推荐(0) 编辑
摘要: 有很多链接已经失效,故将其链接去掉。本文会持续更新那些丢失的链接。敬请留意:-)研究相关的资源What is Research in Computer Science 计算科学的研究是什么?翻译Basic Research Skills in Computer Science 计算科学的基本研究方法Researchers Bible 研究者圣经How to do research 怎样做研究The Ideal Graduate Student (by Michael C. Loui) 理想的研究生Surviving the PhD Viva (by Jane Grimson) 幸存的博士万岁. 阅读全文
posted @ 2012-12-06 13:08 眺望海接天 阅读(560) 评论(0) 推荐(1) 编辑