データチェックの基礎知識その2 改行コードと文字コード

データチェックの基礎知識その2 改行コードと文字コード

データチェック基礎知識の続き記事です。

▼前の記事はこちら

データチェックの基礎知識その1ファイルに関するあれこれ

データチェックする際の縦と横を識別するのが、これから紹介する改行コードと区切り文字です。理由は、縦と横で区切られた塊だと同じかどうかを目検に頼らずチェックできるからです。

改行コード

Enterキーを押すと行が変わります。あるいはウィンドウ内で折り返す場合は改行してなくても見た目上は改行されているように見えることもあります。後者の場合は、エクセルやアクセスでデータをインポートするときに1行のデータとみなされてしまい、上限超えのエラーが出てしまいます。

主な改行コードは2種類です。

  • LF
  • CR+LF

LFとはLine Feedの略で、カーソルを次の行に移動することです。CRとはCarriage Returnの略で、カーソルを左端の位置に戻すことです。タイプライターでの操作が由来になっているようです。

Unix系のOSならLFが、WindowsならCR+LFが使われます。ホストコンピュータから出力するファイルは固定長かつ改行コードがついていないことがあります。必要に応じてエディタで改行コードを変換します。

文字コード

受け渡しするファイルの文字コードがあっていないと日本語のようなダブルバイト文字が化けてしまうことがあります。主な文字コードは以下です。

  • UTF-8
  • S-JIS
  • EBCDIC

EBCDICはホストから出力された時に多いです。S-JISはWindowsに多いでしょうか。一番汎用性が高いのがUTF-8です。

なお、ホストコンピュータの場合はパック10進数を使っている場合があります。その場合は数字項目の変換が必要になりますのでご注意下さい。

次の記事では縦(レコード)と横(項目)を合わせる方法を紹介します。

データチェックの基礎知識その3縦と横を何であわせるか

このブログを書いている人
電子書籍「システム導入のためのデータ移行ガイドブック」著者。 新卒から外資系コンサルティングファームに所属。15年に渡り販売物流、特にCRM領域のコンサルティングに従事。 100名を超えるプロジェクトのPMOなど全体を推進していく役回りや、ユーザ企業への出向を通じた実務経験を持つ。

このブログでは、自身がかき集めた知識や経験を共有する。クライアントへの提案やソリューション開発に直結しないガラクタのようなもの。将来再利用する自分のために。同じような悩みを抱える誰かのためにブログ「元外資系コンサルのガラクタ箱」を運営