コンサルタントはSE(システムエンジニア)ではありませんが、システム導入まで行うことがあります。ここで発生する問題が、SEとしての基礎知識が不足していることです。
私もSEとしては永遠の素人であることは否めませんが、データ移行、システム間インターフェース設計、運用保守などの経験を経て多少のスキルを身に着けました。
平常時はプロのSEさんに依頼できる作業でも、トラブル時などは頼れるSEさんがいなくて自分自身で何とかする必要が出てくることがあります。
本記事ではデータチェックにまつわる基礎知識を紹介します。
現行システムと新システムのデータ突き合わせ検証
新システムの導入前後では、現在稼働中の現行システムとこれからリリースする新システムのデータを比較して検証します。
突き合わせの方法には大きく2種類あります。
- 画面や帳票を見比べる(目検)
- データを出力して比較する
出力データの形式
システムから出力したデータはファイルとして保存します。Excel形式で出力できればその後ExcelやAccessで比較しやすいですが、ファイルにはCSVや固定長などがあります。受け取ったファイルが読み込めないことも珍しくありません。扱いづらくて戸惑うこともあります。
そこで確認しておきたいのがいくつかの形式です。
- 区切り文字は何か?(固定長、カンマ、タブetc)
- 改行コードは何か?(CR+LF、LFetc、なし etc)
- 文字コードは何か?(UTF-8、S-JIS、EBCDIC etc)
区切り文字は何か?
ファイルの行をレコードと呼びます。1つのレコードに複数の項目が含まれる場合の項目の区切り方です。
区切り文字がない →固定長ファイルと呼ばれ、レコード長と各項目のバイト数が決まっているものです。ホストコンピュータから出力する場合はほとんどこの形式です。
区切り文字がある →大きくCSV(Comma Separated Value)と呼ばれたりします。区切り文字がタブの場合は区別してTSV(Tab Separated Value)と呼ばれることもあります。セミコロンやスペースなどデータの中身に存在しないものであれば何でも構いません。
システムのデータベースは項目ごとに型を持っています。数値や文字列などです。文字列項目には、区切り文字に相当する文字が入ってくる可能性もあるため、区切り文字とは別に文字列の開始と終了を引用符(「”」や「’」や「{」など)で括ることもあります。
続きは別記事で紹介します。