データチェック基礎知識の続き記事です。
▼前の記事はこちら
データチェックする際の縦と横を識別するのが、これから紹介する改行コードと区切り文字です。理由は、縦と横で区切られた塊だと同じかどうかを目検に頼らずチェックできるからです。
改行コード
Enterキーを押すと行が変わります。あるいはウィンドウ内で折り返す場合は改行してなくても見た目上は改行されているように見えることもあります。後者の場合は、エクセルやアクセスでデータをインポートするときに1行のデータとみなされてしまい、上限超えのエラーが出てしまいます。
主な改行コードは2種類です。
- LF
- CR+LF
LFとはLine Feedの略で、カーソルを次の行に移動することです。CRとはCarriage Returnの略で、カーソルを左端の位置に戻すことです。タイプライターでの操作が由来になっているようです。
Unix系のOSならLFが、WindowsならCR+LFが使われます。ホストコンピュータから出力するファイルは固定長かつ改行コードがついていないことがあります。必要に応じてエディタで改行コードを変換します。
文字コード
受け渡しするファイルの文字コードがあっていないと日本語のようなダブルバイト文字が化けてしまうことがあります。主な文字コードは以下です。
- UTF-8
- S-JIS
- EBCDIC
EBCDICはホストから出力された時に多いです。S-JISはWindowsに多いでしょうか。一番汎用性が高いのがUTF-8です。
なお、ホストコンピュータの場合はパック10進数を使っている場合があります。その場合は数字項目の変換が必要になりますのでご注意下さい。
次の記事では縦(レコード)と横(項目)を合わせる方法を紹介します。