AWS Glue DataBrewはAWSのビジュアルデータ準備ツール。データプロファイル、データクレンジング、データリネージュ機能がある。データのクリーニングと正規化を迅速にする。コードを記述することなく、データをクリーンアップし正規化する。GlueとBrewで韻を踏んでいるのだろうか。
AWS Glueはコーディング前提のサービスであり、既存ETLからのシフトにはハードルがある。これに対してGlue DataBrewはビジュアル操作を強調しており、既存のデータプロファイリングやクレンジングの市場に影響を与えそうである。
Glue DataBrewはデータセット内のデータを視覚的に探索、把握、統合、クリーンアップ、正規化するためのプロジェクトを作成する。複数のデータセットをマージしたり結合したりできる。データの系統を視覚的にマッピングして、データが通過した様々なデータソースと変換ステップをビジュアルで確認する。
コンソールからは値の分布やヒストグラム、箱ひげ図などでデータの異常を特定できる。データ全体のなかで重複している値や欠けているデータの量、データの分散量(カーディナリティ)、分散の様子、ユニーク値にはどんな値があるかがビジュアルに表示される。
AWS Glue DataBrewではプロファイルジョブを実行して 列レベルのカーディナリティ(値の種類の絶対数)、数値的相関、一意の値、標準偏差などのデータ品質統計を自動生成できる。この際に分析するデータセットのサイズを設定することができる。非常に大きいデータセットの場合に一部のデータに対してプロファイルを実行して、結果を素早く取得することができる。
カーディナリティは項目の値の絶対数である。性別ならば2である。社員番号ならば社員数だけある。カーディナリティが低いとは、カラムの値の種類がレコード数に比べて少ないことを意味する。項目内の要素の重複が多くなる。