なにかのきろく

ひっそりと戻ってきて自分のためになるべく頑張る・・・

Happy Talend Life Fuuuuu

Talendと戯れる今回は
100カラム、100万レコードを処理してみるという小さな遊びです。

この前は3カラムで100万レコードを処理した。
今回はたかが100カラムにしただけです。


そもそも100カラムをデータクレンジングすることがあるのか?
Bigdataに疎い私にはわかりません。
少なくとも私の経験したことがあるBusinessInteligenceを利用した開発では
そのようなケースはありませんでした。
たかだか10年くらいの経験値のなかですけど。

ちっぽけな物差しの話はこれぐらいで。


まず、100カラム100万レコードのファイルを用意する。

実際にやってみることになって、結構めんどくさいくなって・・・。

要は手抜きました。

1.!"#$%の記号を扱ってみる

 f:id:seyoshinori:20160606210644p:plain
2.漢字を扱ってみる

 f:id:seyoshinori:20160606210724p:plain
3.あと適当に

 f:id:seyoshinori:20160606210806p:plain

 

Talendのジョブは今回はtMapを経由するだけです。

 f:id:seyoshinori:20160606210843p:plain


データの分散率はそれほどよくありません。
20項目ぐらいはバラバラにしています。

で、以下が実行結果です。

f:id:seyoshinori:20160606210910p:plain

100カラム、100万レコードで約37秒です。
めんどくさくなって全てのカラムを、
長さも指定しないでString読みこみました。

OUTPUTの一部です。
1.とか2.とか3.とかしっかり出力されてました。

 f:id:seyoshinori:20160606210943p:plain


私のたかだかな経験では導出で70項目ぐらいが最大だったような気もします。

それにあまり大きいデータは、
結局その処理の次の処理で2次加工したり、
無駄なデータとして利用されなかったり、
バッチ処理時のパフォーマンスが出なかった時のダイエット対象となったり、
となんだか可愛そうなぐらいの扱いになることが多かったです。

処理スピードについては、
他のETLツールでも同様の処理を試して比べたいと思います。


そして次回は、
もっと変換処理をやっていく。その方が面白いし。
でもバッチ処理の仕方もやらないといけません。
先にそれですね。そうですね。

では、皆様のETLライフに幸あれ!!

 f:id:seyoshinori:20160606211222j:plain

 ぱくたそ-フリー写真素材・無料ダウンロード

 

 

End