総務省による「統計表における機械判読可能なデータ作成に関する表記方法」は学校で教えるべきレベルで有能
目次
総務省が統計表を作成する際のデータフォーマットを規定
総務省が各府省が政府統計の総合窓口(e-Stat)に掲載する統計表における機械判読可能なデータの表記方法の統一ルールを策定し公表しました。
役所というと「神エクセル」と言われる謎のフォーマットで生産性を阻害しているイメージでしたが、これは全社会人が基礎として共有すべき知識レベルとして有能なルールではないかと。
そこで今回はこれらのうち、データを加工して二次利用する際に無駄な作業を省くために効果を発揮するであろう守るべきルールについて、そのエッセンスをまとめてみることにします。
1セル1データとなっているか
1セルに複数のデータが入っていると一回要素に分解しなくてはいけないなどの無駄な手間が必要になります。
集計や並べ替え、コピペなどをすることも想定し、1セル1データの原則を守ります。
さすがにこんなひどい例はないと思いますが。
数値データは数値属性として文字列を含まない
セルに数値の単位を入れてしまうケースはよく見ます。
これだと全体を文字列と判断し、数値の集計や並べ替えができなくなるので、集計をする数値については数値属性のまま文字列は含まないようにします。
単位表示をするには、下記のような単位用の別セルを作るか、「セルの書式設定」で「ユーザー定義」で単位設定をすればよいでしょう。
セルの結合をしていないか
ガチで迷惑なのがセルの結合。
これをされると1行が1レコードとして認識がされないので並べ替えなどが一切できなくなります。データ抽出のためのフィルタもかかりません。
大分類、中分類、小分類などについては、すべて各レコードに入力をしてあとはフィルタ機能で集計をするほうが良いでしょう。
スペースや改行等で体裁を整えていないか
これも多いですね。
スペースなどの無用なデータが入力されていると検索やデータ突合のときに別のものと判断されることもありエラーにつながることがあります。
データ項目名は改行するよりも文字サイズを小さくしたほうがエラーは少ないです。
データが分断されていないか
空白の行や列が挿入されてデータが分断されているとデータの判読ができない上、ctrl+矢印でデータの範囲指定をする際にもうまく全体を選択できないなどイライラがつのります。
空白は削除し一つのデータベースとして認識できるようにしましょう。
1シートに複数の表が掲載されていないか
1シートに複数の表が記載されているとデータの並べ替えがうまくできないので、1シート1表の形式で記載をしたほうがいいでしょう。
統計表における機械判読可能なデータ作成に関する表記方法|総務省
ということで、特に統計データ処理に携わることはなくても、データ集計などをする際に後で無駄な処理をしないで済むようなフォーマットを理解しておくことは生産性向上のために大切なことでしょう。
9割の人が間違えている「会社のお金」無料講座公開中
「生命保険なら積金より負担なく退職金の準備が可能」
「借金するより自己資金で投資をするほうが安全」
「人件費は売上高に関係なく発生する固定費」
「税務調査で何も指摘されないのが良い税理士」
すべて間違い。それじゃお金は残らない。
これ以上損をしたくないなら、正しい「お金の鉄則」を