データ品質を高めるというよりも

[データ品質とデータモデリング]データ品質を高めるというよりも、誤ったデータが入り込まないようにするためのデータ設計について日経SYSTEMS8月号の「きれいなデータの作り方」特集part3を書かせて頂いた。
よくよく行われているモデリング手法をデータ品質と関連付けたものだ。
きれいなデータを大きく3つに分類し、各々でのデータ設計テクニックを述べたもの。
1.データに重複がないこと
・One fact in one place、いわゆる正規化されていることです
・移行データは期間限定で削除する
 コード改変したにも関わらず、旧のコードを持ち続けているケースです
・重複データを持つ場合は、どちらが正かを明確にしておく
 レプリカデータやインデックスデータはいつでも再作成可能としておくことです
2.誤ったデータがないこと
・掛け持ちデータ、すなわち1つの項目を複数の用途に使用しないこと
・NULLはできるだけ避ける
・主キー依存だけで安易にエンティティ統合しない
3.必要なデータが抜けている
・誤った正規化で分析に必要なトランザクションデータからマスター情報を排除してしまうケース
・マスターの断面管理

これらに則ったデータ構造でも運用していく中でデータコンテンツは劣化してくる。定期的な品質の棚卸も必要であろう。