目次
総務省が各府省が政府統計の総合窓口(e-Stat)に掲載する統計表における機械判読可能なデータの表記方法の統一ルールを策定し公表しました。
役所というと「神エクセル」と言われる謎のフォーマットで生産性を阻害しているイメージでしたが、これは全社会人が基礎として共有すべき知識レベルとして有能なルールではないかと。
そこで今回はこれらのうち、データを加工して二次利用する際に無駄な作業を省くために効果を発揮するであろう守るべきルールについて、そのエッセンスをまとめてみることにします。
1セルに複数のデータが入っていると一回要素に分解しなくてはいけないなどの無駄な手間が必要になります。
集計や並べ替え、コピペなどをすることも想定し、1セル1データの原則を守ります。
さすがにこんなひどい例はないと思いますが。
セルに数値の単位を入れてしまうケースはよく見ます。
これだと全体を文字列と判断し、数値の集計や並べ替えができなくなるので、集計をする数値については数値属性のまま文字列は含まないようにします。
単位表示をするには、下記のような単位用の別セルを作るか、「セルの書式設定」で「ユーザー定義」で単位設定をすればよいでしょう。
ガチで迷惑なのがセルの結合。
これをされると1行が1レコードとして認識がされないので並べ替えなどが一切できなくなります。データ抽出のためのフィルタもかかりません。
大分類、中分類、小分類などについては、すべて各レコードに入力をしてあとはフィルタ機能で集計をするほうが良いでしょう。
これも多いですね。
スペースなどの無用なデータが入力されていると検索やデータ突合のときに別のものと判断されることもありエラーにつながることがあります。
データ項目名は改行するよりも文字サイズを小さくしたほうがエラーは少ないです。
空白の行や列が挿入されてデータが分断されているとデータの判読ができない上、ctrl+矢印でデータの範囲指定をする際にもうまく全体を選択できないなどイライラがつのります。
空白は削除し一つのデータベースとして認識できるようにしましょう。
1シートに複数の表が記載されているとデータの並べ替えがうまくできないので、1シート1表の形式で記載をしたほうがいいでしょう。
統計表における機械判読可能なデータ作成に関する表記方法|総務省
ということで、特に統計データ処理に携わることはなくても、データ集計などをする際に後で無駄な処理をしないで済むようなフォーマットを理解しておくことは生産性向上のために大切なことでしょう。