データチェックの基礎知識その2 改行コードと文字コード

データチェック基礎知識の続き記事です。

▼前の記事はこちら

データチェックの基礎知識その１ファイルに関するあれこれ

データチェックする際の縦と横を識別するのが、これから紹介する改行コードと区切り文字です。理由は、縦と横で区切られた塊だと同じかどうかを目検に頼らずチェックできるからです。

改行コード

Enterキーを押すと行が変わります。あるいはウィンドウ内で折り返す場合は改行してなくても見た目上は改行されているように見えることもあります。後者の場合は、エクセルやアクセスでデータをインポートするときに1行のデータとみなされてしまい、上限超えのエラーが出てしまいます。

主な改行コードは2種類です。

LF
CR+LF

LFとはLine Feedの略で、カーソルを次の行に移動することです。CRとはCarriage Returnの略で、カーソルを左端の位置に戻すことです。タイプライターでの操作が由来になっているようです。

Unix系のOSならLFが、WindowsならCR+LFが使われます。ホストコンピュータから出力するファイルは固定長かつ改行コードがついていないことがあります。必要に応じてエディタで改行コードを変換します。

文字コード

受け渡しするファイルの文字コードがあっていないと日本語のようなダブルバイト文字が化けてしまうことがあります。主な文字コードは以下です。

UTF-8
S-JIS
EBCDIC

EBCDICはホストから出力された時に多いです。S-JISはWindowsに多いでしょうか。一番汎用性が高いのがUTF-8です。

なお、ホストコンピュータの場合はパック10進数を使っている場合があります。その場合は数字項目の変換が必要になりますのでご注意下さい。

次の記事では縦(レコード)と横(項目)を合わせる方法を紹介します。

データチェックの基礎知識その3縦と横を何であわせるか

mhisaeda

電子書籍「システム導入のためのデータ移行ガイドブック」著者。

新卒から外資系コンサルティングファームに所属。15年に渡り販売物流、特にCRM領域のコンサルティングに従事。 100名を超えるプロジェクトのPMOなど全体を推進していく役回りや、ユーザ企業への出向を通じた実務経験を持つ。

このブログでは、自身がかき集めた知識や経験を共有する。クライアントへの提案やソリューション開発に直結しないガラクタのようなもの。将来再利用する自分のために。同じような悩みを抱える誰かのためにブログ「元外資系コンサルのガラクタ箱」を運営。

カテゴリー

持続可能な働き方を追求する (34)
- テレワーク (4)
- 自分プロジェクトを推進する (21)
  - ビジョン (7)
  - モノサシ (1)
  - プランニング (9)
  - プロダクト (1)
  - ネットワーキング (3)
- パラレルキャリア (3)
- キャリアプラン (6)
自分らしい生き方を考える (142)
- 自分語り (3)
- 健康 (6)
- このブログについて (8)
- お役立ち (20)
- 雑記 (25)
- 家族 (86)
  - 博物館 (2)
  - ドラえもん (10)
  - ドラゴンボール (11)
  - 映画 (11)
  - お笑い (2)
  - 中学受験 (10)
  - 新居浜 (8)
  - 海外旅行 (7)
  - 好きなプリン (6)
  - 食べておいしかったもの (9)
  - ヨガ (2)
知識と経験を共有する (302)
- ティール組織 (34)
- 100日読書 (50)
- 書評 (28)
- プロジェクトマネジメント (48)
  - 計画 (3)
  - グローバルプロジェクト (1)
  - 火消し (2)
  - ナレッジマネジメント (4)
  - GTD (2)
  - タスク管理 (2)
- IT・システム (109)
  - Alteryx (6)
  - SAP (1)
  - データ (18)
  - データ移行 (39)
  - CRM (20)
  - Excel (4)
  - Google (3)
  - システム導入 (2)
  - インターフェース (10)
  - ITIL (3)
  - 組織変更 (8)
- コンサルティング (104)
  - SCM (10)
  - 業務改革 (13)
  - 販売管理 (6)
  - コンサル基礎 (21)
  - コンサルコラム (16)
  - 自動車業界 (11)
  - マーケティング (18)
  - 業界動向 (7)
  - SDGs (4)
  - 仕事で使う英語の勉強 (4)
定常運用 (1)
- 旅行 (1)