データチェックの基礎知識その１ファイルに関するあれこれ

コンサルタントはSE(システムエンジニア)ではありませんが、システム導入まで行うことがあります。ここで発生する問題が、SEとしての基礎知識が不足していることです。

私もSEとしては永遠の素人であることは否めませんが、データ移行、システム間インターフェース設計、運用保守などの経験を経て多少のスキルを身に着けました。

平常時はプロのSEさんに依頼できる作業でも、トラブル時などは頼れるSEさんがいなくて自分自身で何とかする必要が出てくることがあります。

本記事ではデータチェックにまつわる基礎知識を紹介します。

現行システムと新システムのデータ突き合わせ検証

新システムの導入前後では、現在稼働中の現行システムとこれからリリースする新システムのデータを比較して検証します。

突き合わせの方法には大きく2種類あります。

画面や帳票を見比べる（目検）
データを出力して比較する

出力データの形式

システムから出力したデータはファイルとして保存します。Excel形式で出力できればその後ExcelやAccessで比較しやすいですが、ファイルにはCSVや固定長などがあります。受け取ったファイルが読み込めないことも珍しくありません。扱いづらくて戸惑うこともあります。

そこで確認しておきたいのがいくつかの形式です。

区切り文字は何か？（固定長、カンマ、タブetc）
改行コードは何か？（CR+LF、LFetc、なし etc）
文字コードは何か？（UTF-8、S-JIS、EBCDIC etc）

区切り文字は何か？

ファイルの行をレコードと呼びます。1つのレコードに複数の項目が含まれる場合の項目の区切り方です。

区切り文字がない　→固定長ファイルと呼ばれ、レコード長と各項目のバイト数が決まっているものです。ホストコンピュータから出力する場合はほとんどこの形式です。

区切り文字がある　→大きくCSV(Comma Separated Value)と呼ばれたりします。区切り文字がタブの場合は区別してTSV(Tab Separated Value)と呼ばれることもあります。セミコロンやスペースなどデータの中身に存在しないものであれば何でも構いません。

システムのデータベースは項目ごとに型を持っています。数値や文字列などです。文字列項目には、区切り文字に相当する文字が入ってくる可能性もあるため、区切り文字とは別に文字列の開始と終了を引用符（「”」や「’」や「{」など）で括ることもあります。

続きは別記事で紹介します。

データチェックの基礎知識その2 改行コードと文字コード

mhisaeda

電子書籍「システム導入のためのデータ移行ガイドブック」著者。

新卒から外資系コンサルティングファームに所属。15年に渡り販売物流、特にCRM領域のコンサルティングに従事。 100名を超えるプロジェクトのPMOなど全体を推進していく役回りや、ユーザ企業への出向を通じた実務経験を持つ。

このブログでは、自身がかき集めた知識や経験を共有する。クライアントへの提案やソリューション開発に直結しないガラクタのようなもの。将来再利用する自分のために。同じような悩みを抱える誰かのためにブログ「元外資系コンサルのガラクタ箱」を運営。

カテゴリー

持続可能な働き方を追求する (34)
- テレワーク (4)
- 自分プロジェクトを推進する (21)
  - ビジョン (7)
  - モノサシ (1)
  - プランニング (9)
  - プロダクト (1)
  - ネットワーキング (3)
- パラレルキャリア (3)
- キャリアプラン (6)
自分らしい生き方を考える (142)
- 自分語り (3)
- 健康 (6)
- このブログについて (8)
- お役立ち (20)
- 雑記 (25)
- 家族 (86)
  - 博物館 (2)
  - ドラえもん (10)
  - ドラゴンボール (11)
  - 映画 (11)
  - お笑い (2)
  - 中学受験 (10)
  - 新居浜 (8)
  - 海外旅行 (7)
  - 好きなプリン (6)
  - 食べておいしかったもの (9)
  - ヨガ (2)
知識と経験を共有する (302)
- ティール組織 (34)
- 100日読書 (50)
- 書評 (28)
- プロジェクトマネジメント (48)
  - 計画 (3)
  - グローバルプロジェクト (1)
  - 火消し (2)
  - ナレッジマネジメント (4)
  - GTD (2)
  - タスク管理 (2)
- IT・システム (109)
  - Alteryx (6)
  - SAP (1)
  - データ (18)
  - データ移行 (39)
  - CRM (20)
  - Excel (4)
  - Google (3)
  - システム導入 (2)
  - インターフェース (10)
  - ITIL (3)
  - 組織変更 (8)
- コンサルティング (104)
  - SCM (10)
  - 業務改革 (13)
  - 販売管理 (6)
  - コンサル基礎 (21)
  - コンサルコラム (16)
  - 自動車業界 (11)
  - マーケティング (18)
  - 業界動向 (7)
  - SDGs (4)
  - 仕事で使う英語の勉強 (4)
定常運用 (1)
- 旅行 (1)