データクレンジングタスク内容とその必要性

データクレンジングタスク内容とその必要性

データクレンジングタスクは、

  • データクレンジング方針作成
  • データクレンジング実施

に分かれます。方針をシステム担当やプロジェクトメンバーで作成し、実施は現場のライン部門に委ねることが多いです。実施を現場でやるのは、業務データに対する責任はライン部門が持っているからです。

データクレンジングとは何か

データクレンジングとは、業務データの中から、重複や誤記、表記の揺れなどを抽出し、重複を削除し誤記や表記の揺れを修正し、データの品質を高めることです。

例として以下のようなものがあります。

  • 全角文字と半角文字の違い(英字、数字、カナ、スペース)
  • 空白文字や区切り記号の有無
  • 人名の異体字(例: 斉藤と齋藤)の誤りや姓名の分割・併合
  • 法人名の表記(株式会社と(株)の違い、正式名と略称の違いなど)
  • 住所や電話番号のフォーマット違い
  • 住所に統廃合前の値、大字や字の有無
  • Null値

汚れたデータをきれいにすることから、データクリーニングと呼ばれることもあります。

クレンジングはなぜ必要か

移行データが汚いと、新システムの運用がしづらいからです。間違ったデータで移行してしまうと業務に支障をきたすことさえあります。

例えば、とある顧客の対応履歴を見たときに問題なかったため電話をしたら、何度も同じ電話をしないでくれ!とのクレーム。実は先日別の担当者が電話をして断られたばかりだったとのこと。名寄せされていなかったことで別の顧客データを見てしまったために発生しました。これはデータがクレンジングされていれば防げた内容です。

システムの利用年数が経つほど汚いデータは増えていきます。システム構築時点で想定していなかった使い方をすればするほど増えていきます。

クレンジングについての関連記事はこちら。

データクレンジングの必要性と対策。汚れたデータが招く危険性

クレンジングのメリット

使えない汚れたデータを使えるデータに整備することで以下のようなメリットがあります。

  • データ分析の精度が上がる
  • 業務の手戻りが減り、生産性が上がる
  • システム保守や開発の費用が下がる

データクレンジング方針

何をどうやってクレンジングするかを決めるのが方針です。クレンジング方針で解決すべきは大きく2種類あります。

行の不統一

重複行になります。情報が枝分かれしてしまい、混乱を招く恐れがあります。また、同じ顧客の情報なのに一元管理されず、情報連携不足にもつながります。

列の不統一

表記揺れになります。データ分析時の誤りや手間につながります。送付先アドレスや住所に間違いがあるとお客様に連絡できませんし、顧客データ検索でヒットしないとお客様情報を確認できません。

データクレンジング実施

決めた方針に従ってデータを修正していきます。

現行システム上で更新するか、事業所ごとなどでリスト出力し、管理部門がまとめて更新することもあります。

クレンジングが完了したら検証を行います。実施前にクレンジング対象データを抽出した時と同じ条件で不備データの抽出を行い、0件ヒットすれば完了です。

データが合致するということは、対応残があるので、原因を確認して再度対応します。

次記事ではデータ移行の成否を握る、検証ツールについて紹介します。

検証ツールの品質がデータ移行の成否を握る

 

このブログを書いている人
電子書籍「システム導入のためのデータ移行ガイドブック」著者。 新卒から外資系コンサルティングファームに所属。15年に渡り販売物流、特にCRM領域のコンサルティングに従事。 100名を超えるプロジェクトのPMOなど全体を推進していく役回りや、ユーザ企業への出向を通じた実務経験を持つ。

このブログでは、自身がかき集めた知識や経験を共有する。クライアントへの提案やソリューション開発に直結しないガラクタのようなもの。将来再利用する自分のために。同じような悩みを抱える誰かのためにブログ「元外資系コンサルのガラクタ箱」を運営