Web 在线数据建模

在Ubuntu中安装mongodb

# 下载密钥文件
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 7F0CEB10

gpg: 下载密钥‘7F0CEB10’,从 hkp 服务器 keyserver.ubuntu.com
gpg: 密钥 7F0CEB10:公钥“Richard Kreuter ”已导入
gpg: 没有找到任何绝对信任的密钥
gpg: 合计被处理的数量:1
gpg: 已导入:1 (RSA: 1)

# 在source.list中增加MongoDB源的配置
sudo vim /etc/apt/source.list/............... 
deb http://downloads-distro.mongodb.org/repo/ubuntu-upstart dist 10gen

# 更新软件源
sudo apt-get update
#安装MongoDB服务器端
sudo apt-get install mongodb-10gen


Ubuntu下安装pip的方法
 
安装pip的方法:
Install pip and virtualenv for Ubuntu 10.10 Maverick and newer
 
$ sudo apt-get install python-pip python-dev build-essential 
$ sudo pip install --upgrade pip 
$ sudo pip install --upgrade virtualenv 
For older versions of Ubuntu
 
Install Easy Install
$ sudo apt-get install python-setuptools python-dev build-essential 
Install pip
$ sudo easy_install pip 
Install virtualenv
$ sudo pip install --upgrade virtualenv
 

解压后,首先进入解压后目录安装 easyinstall : sudo python ez_setup.py

然后安装 mongo-connector: sudo python setup.py install

 

下一步,我们将启动Mongo Connector。为了下载和安装Mongo Connector,你可以使用pip:

pip install mongo-connector

为了示例的正常进行,我们假设你已经安装好了Elasticsearch,且运行于端口为9200的本地机器。你可以使用下面的命令从 MongoDB 复制到Elasticsearch。

mongo-connector -m localhost:27017 -t localhost:9200 -d mongo_connector/doc_managers/elastic_doc_manager.py

当然,如果只想在post标题和内容中进行文本搜索,我们可以使用Elasticsearch的字段选项来限制字段。通过这个方法,我们能最小化所复制的数据量:

mongo-connector -m localhost:27017 -t localhost:9200 --fields title,text -d mongo_connector/doc_managers/elastic_doc_manager.py

就像你看到reddit2mongo将Reddit post以STDOUT输出,你同样可以看到从Mongo Connector输出的日志——所有文档都在同时发送给了ES。



posted @ 2015-10-28 10:50  NetUML大数据搜索  阅读(467)  评论(0编辑  收藏  举报
Web 在线数据建模