データ移行タスクの全体像について書いた先の記事では、最初のステップは、「現行システムからデータを抽出する」でした。その前段階として移行元データについて調査するタスクがあります。この最初に実施かつ最重要なタスクを紹介します。
移行元データの調査が必要な理由
移行元データの調査は以下の2つの理由で必要です。
- 移行ツール要件定義
- データクレンジング
移行ツール要件定義
データ移行は移行ツールを作って行います。数件であれば1件1件画面から登録することもありますが、現行システムで持っているデータは件数も多いためツールを使って一括で移行します。
このツールにどういう処理ステップを持つかを決めるのに、移行元データの調査が必要になります。
移行対象システムはどういうシステムか、どういうデータ項目がどういうテーブルに格納されているかなど移行元データの特徴を明らかにしていきます。
まずは現行システムの設計書を使います。設計書で情報が足りない時には、データベースのテーブル定義やバッチ処理のプログラムを見ることもあります。
データクレンジング
もう一つの理由はデータクレンジングです。データクレンジングとは、現行システムのデータをきれいにすることです。
キーが重複するデータをひとつにまとめたり、表記揺れを修正します。
同じユーザIDのデータが2件あれば1件にまとめますし、カナ氏名が全角と半角入り混じっていればどちらかに統一するようなものです。
他にも、ひとつの項目に複数種類のデータが入っていることもあります。普通に考えるとありえないことですが、現行システムはそれ以前のいくつかのシステムから移行していることもあります。
例えば、性別という項目に、男性を意味する01と、女性を意味する02という値が入っているとします。一方では1や2が入っていることもあります。もしくは03その他という値や、99不明という値が入っていることもあります。
1や2を01,02に寄せる、03と99は残すのもありですが、わかりにくければいっそブランクにしてしまうのも手です。こうしたルールを決めてデータを整えるのがクレンジングです。
データクレンジングをやるには、設計書だけではなく実データを見ることが必要です。設計書には書ききれてないものが多くあるからです。
次記事では移行先データモデルの確認ポイントを紹介します。
クレンジングに関するこちらも