データクレンジングや統合に課題を持つクライアントは多いです。しかしなし崩しで対応し、あまりクレンジング方針などの資料をまとめた記憶がないのも事実です(私がたまたま参画したプロジェクトやフェーズによるとは思います)。
本記事では、データクレンジングに関する記事をまとめて紹介します。システム担当の目線で書いたものが多いですが、なるべく業務目線の問いに答えられるよう書きます。
データクレンジングが必要な理由
新システム導入前にデータクレンジングが必要な理由は2つあります、正しくないことと、紛らわしいことです。
データが正しくない
データが正しくないという事態は、本番システムで実業務が運用されているわけですから、本来あってはならないものです。
しかしながら、現行システムを運用する範囲では、正しくなくても業務に支障が生まれないことがあります。
例えば、顧客を分類する区分データがある時期以降全てブランクになっていたとします。しかし、画面表示や集計レポートで使わなくなり、その値がブランクでも影響なかったのです。
新システム導入に際してその業務を再開することになりましたが、そのまま現行システムから移行すると、区分の値はおかしなままになってしまいます。
データが紛らわしい
顧客データを始め、重複してデータが作られることは珍しくありません。システムや業務運用で、こうした重複データを取り除く「名寄せ」が行われるべきですが、十分行われてないことが多々あります。
新システムに移行する際には、重複データを取り除く必要があります。どれを正のデータとして採用するか機械的に識別できればよいですが、実データ項目を眺めて人手で判断が必要なことが多いです。
どちらかが100%正しいのではなく、どちらも中途半端に正しい場合があります。こうなるとデータを眺めながら正しいものを作るしかありません。
そのデータをマスタとして営業活動のトランザクションなど子データが紐付いていることにも注意が必要です。
クレンジングの縦と横
という記事に方針について書いていますのでご覧ください。
また、クレンジングが適切に対応できたか検証することも重要です。
データクレンジングを超えたデータマネジメント基盤
個別のデータクレンジングがほうきや掃除機を用いた掃除だとすると、部屋や設備全体をきれいに保つための仕組みづくりに相当するものが必要になります。
- MDM(Master Data Management)
- ETL(Extract,Transform, Load)
- ESB(Enterprise Service Bus)
- EAI(Enterprise Application Integration)
これら基盤を揃えるためには、データ定義の管理と、データ品質を向上させ保つことが重要になります。
終わりに
データ品質が悪いと業務の手戻りや、集計データの品質低下につながり意思決定の誤りにもつながります。
遅すぎることはありませんので、必要と感じたクレンジングがあれば手をつけることをおすすめします。