PR

e-Statの国勢調査統計データをPower BIで読み込むための方法

TopoJSON For PowerBIの使い方
この記事は約5分で読めます。

TopoJSON For PowerBIに関する記事をシリーズでお届けいたします。今回は第6回でe-Statの「国勢調査データの加工法」になります。

「なぜ加工が必要になるか?」ですが、最大の要因は国勢調査データの中には結果数値が著しく小さい地域については,そのまま数値を載せてしまうと場合によって個人情報の特定につながってしまう可能性があり、そのようなケースでは秘匿処理を施しているためです。

スポンサーリンク

小地域の統計数値の場合

ダウンロードした統計データは中身は「CSV」形式(項目をカンマ「,」で区切ったテキストファイル)ですが、ダウンロードファイルの拡張子は「.txt」になっています。

拡張子が「.txt」になっているのでExcelで開く場合は好都合で、「開く」→「参照」で「テキスト ファイル(*.prm;*.txt;*.csv)」でダウンロードしたファイルを指定して開くと「テキスト ファイル ウィザード」が立ち上がるので、文字コードは「932:日本語(シフトJIS)」にして、区切り文字は「カンマ」にチェックして、ウィザードの3/3で列のデータ形式では最初の7項目はKEY_CODE等情報(KEY_CODEを含むレコード特定情報)になっているので「文字列」にしてから読み込むようにします。

なおレコード特定情報の中身は下記になります。なお出典はE-Statの「ダウンロードデータについて」になります。

項目内容備考
KEY_CODE境界データと統計データを結びつけるコード都道府県番号+市区町村番号+町丁字コード
HYOSYO地域識別番号 1:市区町村、2:大字・町名、3:字・丁目
CITYNAME市区町村名
NAME町丁・字等名
HTKSYORI秘匿処理 0:秘匿なし地域、1:合算地域、2:秘匿地域
HTKSAKI秘匿先情報(合算先地域の町丁字コード)
GASSAN合算地域(合算元地域の町丁字コード)「;」複数ある場合の区切り文字

変換が必要なデータ

総務省統計局の「統計局ホームページ/平成27年国勢調査結果利用上の注意」に書かれているのですが統計データの中で下記の文字を変換する必要があります。

  1. 統計表中の「-」は,該当数字がないもの,「0.0」は単位未満の数を示します。
  2. 結果数値が著しく小さい地域については,秘匿処理(結果数値を「x」に置き換え)を施しています。

つまり、「-」と「X」は数字「0」に置き換えないと、Power BIでは整数として値を設定することができません。

そこでCSV形式の「.txt」ファイルをExcelに読み込んだ後で、統計データの部分の列をドラッグですべて選択し、ホームタブの「検索と選択」アイコンでサブメニューから「置換」をクリックし、「検索する文字列」にひとつづつ「-」と「X」、「置換後の文字列」に数字の「0」を入力し「すべて置換」ボタンで変換を実行します。

合わせて、2行目に統計データの日本語項目名が入っていますが、削除するなり、項目名に加工するなりして、タイトル行は1行になるように修正してから保存してください。

統計データの中の不要なデータは取り合えずそのままでも大丈夫です

お気づきのように、統計データの中には、都道府県レベルの総計レコードや市町村区レベルの総計レコードや、対象境界データ外のレコードが含まれています。

確かにこれにより、総データ量は膨らんでしまうことで、パソコンの処理が重くなることはありますが、Power BIで境界データに統計データを表示されるためには、不要なレコードが残っていたとしても悪影響はありません。

もしも総データ量を絞りたい場合は、境界データのKEY情報と統計データのKEY_CODE情報をVLOOKUP関数などでマッチングして、マッチしなかったレコードを削除するような処理をすることになりますが、結構大変であるので、必要がある場合にするのが良い認識です。

メッシュの統計数値の場合

地域メッシュ統計のデータも総務省統計局の「統計局ホームページ/地域メッシュ統計の用語の解説」にて「一つの地域メッシュに表章される人口又は世帯数が極めて少ない場合、当該地域メッシュに係る結果数値は、近接する地域メッシュの結果数値に合算した上で表章します。」と書かれています。

実際のデータを見ると統計データに「*」が入力されている項目があり、これが秘匿の場合にあたります。

従って小地域と同様に「*」を数字の「0」に変換します。
この時、「~*」のように「*」の前に「~」(半角英数入力でシフトキーを押しながら「へ」のキー)を付ける必要があります。

なおメッシュ統計の場合最初の4項目がKEY_CODE等情報(KEY_CODEを含むレコード特定情報)になります。
その内容は下記になります。

項目内容備考
KEY_CODEメッシュコード
HTKSYORI秘匿処理 0:秘匿なし地域、1:合算地域、2:秘匿地域
HTKSAKI秘匿先情報(合算先地域メッシュコード10桁)
GASSAN合算地域(合算元地域メッシュコード10桁)

小地域の場合と同じく、2行目に統計データの日本語項目名が入っていますが、削除するなり、項目名に加工するなりして、タイトル行は1行になるように修正してから保存してください。

最後に

統計情報についてもPower BIでお使い易いように加工してご提供できれば良いのですが、結構内容の更新がされているので、正しいアップデートをして行くためには、それなりのマンパワーが必要となります。

そのため大変恐縮ではありますが、統計情報につきましては皆様でお取込みしていただければ幸甚です。
何卒ご理解のほどよろしくお願いいたします。

次回はPower BIにおける境界データの取り込み上限につきましてご説明致します。
以上、最後までご一読いただきありがとうございました。