データクレンジングタスクは、
- データクレンジング方針作成
- データクレンジング実施
に分かれます。方針をシステム担当やプロジェクトメンバーで作成し、実施は現場のライン部門に委ねることが多いです。実施を現場でやるのは、業務データに対する責任はライン部門が持っているからです。
データクレンジングとは何か
データクレンジングとは、業務データの中から、重複や誤記、表記の揺れなどを抽出し、重複を削除し誤記や表記の揺れを修正し、データの品質を高めることです。
例として以下のようなものがあります。
- 全角文字と半角文字の違い(英字、数字、カナ、スペース)
- 空白文字や区切り記号の有無
- 人名の異体字(例: 斉藤と齋藤)の誤りや姓名の分割・併合
- 法人名の表記(株式会社と(株)の違い、正式名と略称の違いなど)
- 住所や電話番号のフォーマット違い
- 住所に統廃合前の値、大字や字の有無
- Null値
汚れたデータをきれいにすることから、データクリーニングと呼ばれることもあります。
クレンジングはなぜ必要か
移行データが汚いと、新システムの運用がしづらいからです。間違ったデータで移行してしまうと業務に支障をきたすことさえあります。
例えば、とある顧客の対応履歴を見たときに問題なかったため電話をしたら、何度も同じ電話をしないでくれ!とのクレーム。実は先日別の担当者が電話をして断られたばかりだったとのこと。名寄せされていなかったことで別の顧客データを見てしまったために発生しました。これはデータがクレンジングされていれば防げた内容です。
システムの利用年数が経つほど汚いデータは増えていきます。システム構築時点で想定していなかった使い方をすればするほど増えていきます。
クレンジングについての関連記事はこちら。
クレンジングのメリット
使えない汚れたデータを使えるデータに整備することで以下のようなメリットがあります。
- データ分析の精度が上がる
- 業務の手戻りが減り、生産性が上がる
- システム保守や開発の費用が下がる
データクレンジング方針
何をどうやってクレンジングするかを決めるのが方針です。クレンジング方針で解決すべきは大きく2種類あります。
行の不統一
重複行になります。情報が枝分かれしてしまい、混乱を招く恐れがあります。また、同じ顧客の情報なのに一元管理されず、情報連携不足にもつながります。
列の不統一
表記揺れになります。データ分析時の誤りや手間につながります。送付先アドレスや住所に間違いがあるとお客様に連絡できませんし、顧客データ検索でヒットしないとお客様情報を確認できません。
データクレンジング実施
決めた方針に従ってデータを修正していきます。
現行システム上で更新するか、事業所ごとなどでリスト出力し、管理部門がまとめて更新することもあります。
クレンジングが完了したら検証を行います。実施前にクレンジング対象データを抽出した時と同じ条件で不備データの抽出を行い、0件ヒットすれば完了です。
データが合致するということは、対応残があるので、原因を確認して再度対応します。
次記事ではデータ移行の成否を握る、検証ツールについて紹介します。