FC2ブログ

スポンサーサイト 

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

category: スポンサー広告

TB: --    CM: --    

solr tsvファイルをcurlでputする 

SolrはDIが用意されていてelastic Searchに比べてクロールの敷居が低いと思っています。
クロール先がDatabase(OracleやMySQL)ならDI使ってクロールする、でいいと思います。

手軽にSolrを使う場合、CSVやTSVを登録して集計に使ったりとできます。
#データが多いならHadoopの方がいいかもだけど。。。

■TSVをcurlで直接登録します

curl 'http://localhost:8983/solr/tsv_load/update?commit=true&separator=%09&encapsulator=%09&stream.contentType=text/csv;charset=utf-8&stream.file=/var/solr/inp/a.tsv'



http://localhost:8983/solr/tsv_load/updateのtsv_loadはコア名
commit=trueを付けないとあとでコミットしないとダメなので。
stream.contentType=text/csvこれでcsv,tsvを読み込みます
separator=%09でタブ区切りに。
ファイルは、stream.file=/var/solr/inp/a.tsv
エンコードは、charset=utf-8
スポンサーサイト

category: コンピュータ

TB: 0    CM: 0   

コメント

コメントの投稿

Secret

トラックバック

トラックバックURL
→http://forjunk.blog60.fc2.com/tb.php/265-673a1ed1
この記事にトラックバックする(FC2ブログユーザー)

プロフィール

物欲リスト

最近の記事

月別アーカイブ

カテゴリー

ブログ内検索

RSSフィード

リンク

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。