なにかのきろく

ひっそりと戻ってきて自分のためになるべく頑張る・・・

Talendを動かすのと同時に「ぱくたそ」凄いって思う。

フリー写真素材ぱくたそ のモデル[茜さや]さんです。
世の中凄いです。

ぱくたそ-フリー写真素材・無料ダウンロード

f:id:seyoshinori:20160601203516j:plain

 

 

さてTalendをインストールしたので、早速動くか試す。

私の設定が正しいなら動く。当たり前だね。


※ーーーーーーーかんきょーーーーーーー※
talend Version: 5.6.3
 Build id: V5.6.3_20160127_1448
・Windows7Pro 64bitオペレーティングシステム
・メモリ 8GB、CPU Corei5
java version "1.7.0_79"
 Java(TM) SE Runtime Environment (build 1.7.0_79-b15)
 Java HotSpot(TM) 64-Bit Server VM (build 24.79-b02, mixed mode)
※ーーーーーーーかんきょーーーーーーー※


今回は、簡単な構造のジョブを動かすことを目指す。
だって皆はTalend初めてでしょ。私も初めてなんで(照れ)

以下のような簡単なジョブを作った。
inputはFileです。データをtMapで少し弄ってから、そのデータをFileでoutputする。
ちなみにETLでは「入力」という言葉ではなく「抽出」と言います。
この方がプロっぽいです。

f:id:seyoshinori:20160601203647p:plain


では、流れと共にコンポーネントの設定の中身をみる。
参考になるようにコンポーネントの名前は変えていません。


1.tFileInputDelimited_1
  ファイルの場所やファイルの形式を指定します。

  f:id:seyoshinori:20160601203711p:plain

  「ヘッダー」に「1」って入っているのは、
  inputのFileで1行目にデータの名前を入れたからです。
  そして、どのような列のデータを抽出するのか「スキーマ」を定義する。

  f:id:seyoshinori:20160601203733p:plain

 

2.tMap_1
  tMapでデータを弄ります!inputされたデータを弄る。
  左から右にデータが流れるイメージでどのように弄るか設定する。
  これを「導出定義」って呼ぶ。

  f:id:seyoshinori:20160601203905p:plain

  ちなみに真ん中に"GoodBye"という文字列がありますが、
  ここは変数を設定できる。
  inputは3列のデータでしたが、outputは4列のデータになる。
  さらに、2列目のnameカラムを大文字に変換する。

  DataStagePXのTransformerにそっくりなのでスキトラが楽そうです。

 

3.tFileOutputDelimited_1

  ここはoutputのfileをどのように出力するか定義する。

  f:id:seyoshinori:20160601204031p:plain

  スキーマコンポーネントをつなぐ「ライン」を設定すれば自動で設定された。


では実行する。

f:id:seyoshinori:20160601204154p:plain

コンポーネント間を流れた行数や実行時間が表示される。わかりやすいです。

DataStagePXも同じように表示されます。


inputのfileはこちら

f:id:seyoshinori:20160601204211p:plain


outputのfileはこちら

f:id:seyoshinori:20160601204221p:plain

 

ヘッダー行考えてなかったww

今回は3列、100万行のデータを流した。
でもデータの中身のバリエーションは少ない。

 

今後、データ作り込んで100列、100万行で流してパフォーマンスを確認する。

 

End