スポンサーサイト 

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

category: スポンサー広告

TB: --    CM: --    

Cloudera Manager でApache Sparkが使ってみたい 

Hadoopのディストリビューションではメジャーだと思うCloudera managerでSparkもインストール出来るという事で。
vmをローカルで用意するのが面倒なので、google compute engineでmaster×1 worker×3のクラスタを作って試してみました。

監視ツールとしては結構高機能なイメージです。
gcpでもちゃんと動いているのはエライ!
ss1.jpg

worker3台構成です。
マシンスペックはgcpの無料アカウントなのでショボショボです。
ss2.jpg

CDH5を適用済みで、sparkは・・・というとバージョンが0.9.0?!
ss3.jpg

ん?と思ってClouderaのHPで確認してみると、latestにあるっていうから確認してみたら…。
ss4.jpg

本当に0.9.0がlatestだった(絶望
Expressだからなのか!?

hadoopディストリビューターってのは理解できるがちょっと古すぎやしませんか。
スポンサーサイト

category: コンピュータ

TB: 0    CM: 0   

ubuntu14.10 Hadoop(CDH5) install 

HadoopをApacheでは無くClouderaの方で入れてみました。

手順は以下のサイトを参考に。
ほどんどそのままでexample実行まで出来ました。
http://azwoo.hatenablog.com/entry/2015/06/03/152624

一部コマンドでsudoが必要だったり、mapになってるのでsudoが不要だったりしますが、とりあえず問題はありません。

インストールしたパッケージのバージョンを確認したところ、

map@junk-VirtualBox:~$ hadoop version
Hadoop 2.6.0-cdh5.4.2
Subversion http://github.com/cloudera/hadoop -r 15b703c8725733b7b2813d2325659eb7d57e7a3f
Compiled by jenkins on 2015-05-19T23:59Z
Compiled with protoc 2.5.0
From source with checksum de74f1adb3744f8ee85d9a5b98f90d
This command was run using /usr/lib/hadoop/hadoop-common-2.6.0-cdh5.4.2.jar
map@junk-VirtualBox:~$


結構ちゃんと最新が入りますね。
インストール等はとても楽ですが、全部入りっていうくらい色々入っててサイズはデカイかもしれません。

Clouderaの良い所は、64bitOSでビルドしなくても最新のパッケージが使えるところですね!
mvnとか自分でやるのであればapacheから落としてきても問題ないですが。

ps.hadoop1.xのexampleだったwordcountはhadoop-examples.jarに置き換わったんですね。

category: 未分類

TB: 0    CM: 0   

solr tsvファイルをcurlでputする 

SolrはDIが用意されていてelastic Searchに比べてクロールの敷居が低いと思っています。
クロール先がDatabase(OracleやMySQL)ならDI使ってクロールする、でいいと思います。

手軽にSolrを使う場合、CSVやTSVを登録して集計に使ったりとできます。
#データが多いならHadoopの方がいいかもだけど。。。

■TSVをcurlで直接登録します

curl 'http://localhost:8983/solr/tsv_load/update?commit=true&separator=%09&encapsulator=%09&stream.contentType=text/csv;charset=utf-8&stream.file=/var/solr/inp/a.tsv'



http://localhost:8983/solr/tsv_load/updateのtsv_loadはコア名
commit=trueを付けないとあとでコミットしないとダメなので。
stream.contentType=text/csvこれでcsv,tsvを読み込みます
separator=%09でタブ区切りに。
ファイルは、stream.file=/var/solr/inp/a.tsv
エンコードは、charset=utf-8

category: コンピュータ

TB: 0    CM: 0   

ubuntu 14.04 → 14.10 

ubuntu 15.04をインストールして使ってましたが、compizがイマイチ良くなく・・・。
termを起動した時に勝手にサイズが最小に小さくなってしまうという気持ち悪い状態になり、
cubeとか使ってるとダメというのは分かったんだけど解決方法がわからないので14.04にバージョンを落とした。

しかし14.04でマウスを左端にくっつけてもスクロールしない。右はちゃんとするのに。。。
そもそも14.04はチェックボックスとかが選択できない状態になっており、なんかおかしい。
ので14.10の環境を構築することに。

思い立ってすぐに環境を構築できるのはvirtualBoxの良い所。

結果から。

14.10ではcompizで問題なくcubeが動作出来ました。

自分用に手順を。。。

1.Ubuntuソフトウェアセンターを開き、compizComfig設定マネージャーをインストール
2.Ubuntuソフトウェアセンターから、Synapticパッケージマネージャーをインストール
3.termを開いて sudo synaptic を実行
4.Synapticパッケージマネージャでcompiz-plugins-extraを検索し、インストール
5.compizComfig設定マネージャーでcubeを有効にして、一般オブションからディスクトップサイズの水平仮想サイズを4に
6.ubuntuを再起動



category: コンピュータ

TB: 0    CM: 0   

solr5.2.1 ubuntu14.04 環境編 

Solr5をインストーラーでインストルした場合の環境メモ

■ログフォルダ

/var/solr/logs



■log4j

/var/solr/log4j.properties



■coreの配置位置

/var/solr/data




新しいcoreを配置する場合、

/var/solr/data


の下にcoreのフォルダを作成contフォルダを作成し、ファイルを配置。

とりあえずnew_coreフォルダをdataフォルダの下に作成して、その下にcontフォルダを作成。
example-DIHのconfから以下のファイルをコピーしてchown solr:solrして起動確認。
#langはフォルダです

currency.xml
elevate.xml
lang/
mapping-FoldToASCII.txt
mapping-ISOLatin1Accent.txt
protwords.txt
schema.xml
solr-data-config.xml
solrconfig.xml
stopwords.txt
synonyms.txt



あとはこのcoreをベースに作っていけばOKかなっと。

category: コンピュータ

TB: 0    CM: 0   

プロフィール

物欲リスト

最近の記事

月別アーカイブ

カテゴリー

ブログ内検索

RSSフィード

リンク

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。