データチェックの基礎知識その１ファイルに関するあれこれ

2017年3月31日データ

Tweet

データチェックの基礎知識その１ファイルに関するあれこれ

コンサルタントはSE(システムエンジニア)ではありませんが、システム導入まで行うことがあります。ここで発生する問題が、SEとしての基礎知識が不足していることです。

私もSEとしては永遠の素人であることは否めませんが、データ移行、システム間インターフェース設計、運用保守などの経験を経て多少のスキルを身に着けました。

平常時はプロのSEさんに依頼できる作業でも、トラブル時などは頼れるSEさんがいなくて自分自身で何とかする必要が出てくることがあります。

本記事ではデータチェックにまつわる基礎知識を紹介します。

現行システムと新システムのデータ突き合わせ検証

新システムの導入前後では、現在稼働中の現行システムとこれからリリースする新システムのデータを比較して検証します。

突き合わせの方法には大きく2種類あります。

画面や帳票を見比べる（目検）
データを出力して比較する

出力データの形式

システムから出力したデータはファイルとして保存します。Excel形式で出力できればその後ExcelやAccessで比較しやすいですが、ファイルにはCSVや固定長などがあります。受け取ったファイルが読み込めないことも珍しくありません。扱いづらくて戸惑うこともあります。

そこで確認しておきたいのがいくつかの形式です。

区切り文字は何か？（固定長、カンマ、タブetc）
改行コードは何か？（CR+LF、LFetc、なし etc）
文字コードは何か？（UTF-8、S-JIS、EBCDIC etc）

区切り文字は何か？

ファイルの行をレコードと呼びます。1つのレコードに複数の項目が含まれる場合の項目の区切り方です。

区切り文字がない　→固定長ファイルと呼ばれ、レコード長と各項目のバイト数が決まっているものです。ホストコンピュータから出力する場合はほとんどこの形式です。

区切り文字がある　→大きくCSV(Comma Separated Value)と呼ばれたりします。区切り文字がタブの場合は区別してTSV(Tab Separated Value)と呼ばれることもあります。セミコロンやスペースなどデータの中身に存在しないものであれば何でも構いません。

システムのデータベースは項目ごとに型を持っています。数値や文字列などです。文字列項目には、区切り文字に相当する文字が入ってくる可能性もあるため、区切り文字とは別に文字列の開始と終了を引用符（「”」や「’」や「{」など）で括ることもあります。

続きは別記事で紹介します。

データチェックの基礎知識その2 改行コードと文字コード

電子書籍「システム導入のためのデータ移行ガイドブック」著者。新卒から外資系コンサルティングファームに所属。15年に渡り販売物流、特にCRM領域のコンサルティングに従事。 100名を超えるプロジェクトのPMOなど全体を推進していく役回りや、ユーザ企業への出向を通じた実務経験を持つ。

このブログでは、自身がかき集めた知識や経験を共有する。クライアントへの提案やソリューション開発に直結しないガラクタのようなもの。将来再利用する自分のために。同じような悩みを抱える誰かのためにブログ「元外資系コンサルのガラクタ箱」を運営