Tableauでオープンデータを可視化
データサイエンティスト
データサイエンティスト という職業をご存知でしょうか. データサイエンティストとは,企業や組織での意思決定が必要な場面において,データに基づき合理的な判断を下す人を指します. データサイエンティストには,数学,統計学,情報科学,プログラミング など高度な知識が必要であり, 一部の専門家のみがその役割を担ってきました. 一方で,大量のデータを分析するためのソフトウェア,いわゆる「 BI(Business Intelligence)ツール 」が成熟・普及することで, 専門家ではなくともデータの可視化,データの集計・分析が容易となりました. BIツールには,Tableau, Qlik Sense, Actionista,などがありますが, ここでは,IT調査企業であるGartnerが, Learders(成熟したサービスを提供する製品・企業) に選出した Tableau を採用し, データの可視化にチャレンジしてみましょう.
Tableau
Tableau(日本語ではタブローと表記)とはどんなBIツールでしょうか. このBIツールは,アメリカに本社を置く Tableau Software が開発しており, 世界で42,000社以上,また,日本で2,000社以上の企業が利用していると言われています(2016年8月現在). 本学にも導入される予定であり,教員・学生・事務職員によるIR(Institute Research)において活用される見込みです. PC向けのソフトウェアは Tableau Desktop という名称であり,一般には年間の利用料金が必要ですが, アカデミックプログラムが別途用意されており, 教員と学生は,なんと 無料 で利用可能です(14日間の無料トライアルもある). 組織内のデータ分析はもちろん,将来のデータサイエンティストを育てるための学習ツールとしても最適と言えるでしょう.
ここで,他のBIツールと比較したTableauの特徴をまとめます.
- プログラミングが不要(ドラッグ&ドロップで操作)
- 様々なファイル形式(xlsx,csv,etc.),サーバー(MySQL, Googleスプレッドシート, etc.)に対応
- 可視化のパターンが豊富(ツリーマップ,パレート図,etc.)
一般に,高度なデータ分析には R, Python と呼ばれるプログラミング言語が用いられますが, Tableauではプログラミングの知識は一切不要です. また,組織で蓄積されているであろう Excel や CSV などのファイルはもちろん, データベース・サーバーにも接続可能です. さらに,分析結果を伝えるためには不可欠な データの可視化 にもTableauは優れています. 上記の特徴から,手元にあるデータを利用して,初学者が気軽に学び始めることが出来ます.
オープンデータ
早速,Tableauでデータ分析を始めたいところですが, まずは対象とするデータを用意しなくてはいけません. ここでは,自治体が公開しているオープンデータを利用してみましょう. オープンデータとは下記条件に従って公開されているデータを指しています.
- 機械判読に適したデータ形式
- 二次利用が可能な利用ルールで公開
多くの自治体は,2016年に施行された 官民データ活用基本法 に従い, 保有するデータを積極的に公開するようになりました. 愛知県下では公開されているオープンデータを幾つか挙げてみます.
オープンデータの取り組みは2018年4月30日時点で全ての都道府県が実施しています. 市区町村レベルでは約18%が実施とされていますが,この動きは今後活発になっていくと予想されます. 今回は,愛知県内の先進自治体である 日進市 が公開しているデータを利用しましょう.
ファイルに接続
今回は,日進市が オープンデータミュージアムで公開している 町別人口・世帯数 のデータを利用して, 日進市内の地区毎の人口をグラフ化してみましょう. それでは,下記のリンクをクリックして,令和元年5月1日 のデータをダウンロードしてください.
次に,Tableauで読み込みが可能なデータ形式に加工します. ダウンロードしたファイルは CSV形式 であり,Excelで編集することが可能です. Excelでファイルを開いたら,1~3行を削除してください.
同様に最終行を削除し,上書き保存してください.
それでは,Tableau Desktop を起動します. 最初に接続するデータソース(対象となるファイルやサーバーのこと)を選択します. ここでは,テキストファイル をクリックし,先程ダウンロードした町別人口・世帯数のファイルを選択します.
するとデータが読み込まれますが,フィールド名(列名)が正しく認識されていません. そこで,「フィールド名は1行目に含まれている」をクリックし,フィールド名を設定します. これで,正しくデータを読み込むことができました.
人口グラフの作成
地区毎の人口をグラフにしてみましょう. まずは,データシート から,ワークシート に切り替えます.
ここで,グラフの詳細を設定します. グラフの列(分析の基準)と行(分析の対象)には, ディメンション または メジャー をドラッグ&ドロップで設定します. ディメンションは 分析の軸(主に文字列) であり,メジャーは 分析の指標(主に数値) を表しています. どちらも列と行に設定可能ですが,棒グラフなどでは,列にディメンション,行にメジャーを設定するのが一般的です. ここでは,列にディメンジョンの 町名 ,行にメジャーの 総数 を設定します. これだけで簡単にグラフが作成可能です.
それでは,ワークシート名や並び替えなどグラフの表現を整えていきましょう.
- ワークシート名を 町別人口 に変更
- データを 降順 で並べ替え
- 総数をデータラベルに設定
- 総数でデータを色分け
これで,日進市の町別人口のグラフが完成です. Tableauでは,作成したワークシートを,パワーポイント形式やPDF形式でエクスポート出来るので試してみると良いでしょう.