Happy Talend Life Fuuuuu
Talendと戯れる今回は
100カラム、100万レコードを処理してみるという小さな遊びです。
この前は3カラムで100万レコードを処理した。
今回はたかが100カラムにしただけです。
そもそも100カラムをデータクレンジングすることがあるのか?
Bigdataに疎い私にはわかりません。
少なくとも私の経験したことがあるBusinessInteligenceを利用した開発では
そのようなケースはありませんでした。
たかだか10年くらいの経験値のなかですけど。
ちっぽけな物差しの話はこれぐらいで。
まず、100カラム100万レコードのファイルを用意する。
実際にやってみることになって、結構めんどくさいくなって・・・。
要は手抜きました。
1.!"#$%の記号を扱ってみる
2.漢字を扱ってみる
3.あと適当に
Talendのジョブは今回はtMapを経由するだけです。
データの分散率はそれほどよくありません。
20項目ぐらいはバラバラにしています。
で、以下が実行結果です。
100カラム、100万レコードで約37秒です。
めんどくさくなって全てのカラムを、
長さも指定しないでString読みこみました。
OUTPUTの一部です。
1.とか2.とか3.とかしっかり出力されてました。
私のたかだかな経験では導出で70項目ぐらいが最大だったような気もします。
それにあまり大きいデータは、
結局その処理の次の処理で2次加工したり、
無駄なデータとして利用されなかったり、
バッチ処理時のパフォーマンスが出なかった時のダイエット対象となったり、
となんだか可愛そうなぐらいの扱いになることが多かったです。
処理スピードについては、
他のETLツールでも同様の処理を試して比べたいと思います。
そして次回は、
もっと変換処理をやっていく。その方が面白いし。
でもバッチ処理の仕方もやらないといけません。
先にそれですね。そうですね。
では、皆様のETLライフに幸あれ!!
End