Tableauでオープンデータを可視化

Image from Gyazo

データサイエンティスト

データサイエンティスト という職業をご存知でしょうか. データサイエンティストとは,企業や組織での意思決定が必要な場面において,データに基づき合理的な判断を下す人を指します. データサイエンティストには,数学統計学情報科学プログラミング など高度な知識が必要であり, 一部の専門家のみがその役割を担ってきました. 一方で,大量のデータを分析するためのソフトウェア,いわゆる「 BI(Business Intelligence)ツール 」が成熟・普及することで, 専門家ではなくともデータの可視化,データの集計・分析が容易となりました. BIツールには,TableauQlik SenseActionista,などがありますが, ここでは,IT調査企業であるGartnerが, Learders(成熟したサービスを提供する製品・企業) に選出した Tableau を採用し, データの可視化にチャレンジしてみましょう.

Tableau

Tableau(日本語ではタブローと表記)とはどんなBIツールでしょうか. このBIツールは,アメリカに本社を置く Tableau Software が開発しており, 世界で42,000社以上,また,日本で2,000社以上の企業が利用していると言われています(2016年8月現在). 本学にも導入される予定であり,教員・学生・事務職員によるIR(Institute Research)において活用される見込みです. PC向けのソフトウェアは Tableau Desktop という名称であり,一般には年間の利用料金が必要ですが, アカデミックプログラムが別途用意されており, 教員と学生は,なんと 無料 で利用可能です(14日間の無料トライアルもある). 組織内のデータ分析はもちろん,将来のデータサイエンティストを育てるための学習ツールとしても最適と言えるでしょう.

ここで,他のBIツールと比較したTableauの特徴をまとめます.

一般に,高度なデータ分析には RPython と呼ばれるプログラミング言語が用いられますが, Tableauではプログラミングの知識は一切不要です. また,組織で蓄積されているであろう ExcelCSV などのファイルはもちろん, データベース・サーバーにも接続可能です. さらに,分析結果を伝えるためには不可欠な データの可視化 にもTableauは優れています. 上記の特徴から,手元にあるデータを利用して,初学者が気軽に学び始めることが出来ます.

オープンデータ

早速,Tableauでデータ分析を始めたいところですが, まずは対象とするデータを用意しなくてはいけません. ここでは,自治体が公開しているオープンデータを利用してみましょう. オープンデータとは下記条件に従って公開されているデータを指しています.

多くの自治体は,2016年に施行された 官民データ活用基本法 に従い, 保有するデータを積極的に公開するようになりました. 愛知県下では公開されているオープンデータを幾つか挙げてみます.

オープンデータの取り組みは2018年4月30日時点で全ての都道府県が実施しています. 市区町村レベルでは約18%が実施とされていますが,この動きは今後活発になっていくと予想されます. 今回は,愛知県内の先進自治体である 日進市 が公開しているデータを利用しましょう.

ファイルに接続

今回は,日進市が オープンデータミュージアムで公開している 町別人口・世帯数 のデータを利用して, 日進市内の地区毎の人口をグラフ化してみましょう. それでは,下記のリンクをクリックして,令和元年5月1日 のデータをダウンロードしてください.

日進市 オープンデータミュージアム 行政活動情報

次に,Tableauで読み込みが可能なデータ形式に加工します. ダウンロードしたファイルは CSV形式 であり,Excelで編集することが可能です. Excelでファイルを開いたら,1~3行を削除してください.

Image from Gyazo

同様に最終行を削除し,上書き保存してください.

Image from Gyazo

それでは,Tableau Desktop を起動します. 最初に接続するデータソース(対象となるファイルやサーバーのこと)を選択します. ここでは,テキストファイル をクリックし,先程ダウンロードした町別人口・世帯数のファイルを選択します.

Image from Gyazo

するとデータが読み込まれますが,フィールド名(列名)が正しく認識されていません. そこで,「フィールド名は1行目に含まれている」をクリックし,フィールド名を設定します. これで,正しくデータを読み込むことができました.

Image from Gyazo

人口グラフの作成

地区毎の人口をグラフにしてみましょう. まずは,データシート から,ワークシート に切り替えます.

Image from Gyazo

ここで,グラフの詳細を設定します. グラフの列(分析の基準)と行(分析の対象)には, ディメンション または メジャー をドラッグ&ドロップで設定します. ディメンションは 分析の軸(主に文字列) であり,メジャーは 分析の指標(主に数値) を表しています. どちらも列と行に設定可能ですが,棒グラフなどでは,列にディメンション,行にメジャーを設定するのが一般的です. ここでは,列にディメンジョンの 町名 ,行にメジャーの 総数 を設定します. これだけで簡単にグラフが作成可能です.

Image from Gyazo

それでは,ワークシート名や並び替えなどグラフの表現を整えていきましょう.

Image from Gyazo

これで,日進市の町別人口のグラフが完成です. Tableauでは,作成したワークシートを,パワーポイント形式やPDF形式でエクスポート出来るので試してみると良いでしょう.

Image from Gyazo

愛知県名古屋市にある椙山女学園大学 文化情報学部 向研究室の公式サイトです. 専門は情報科学であり,人工知能やデータベースなどの技術要素を指導しています. この公式サイトでは,授業で使用している教材を公開すると共に, ベールに包まれた女子大教員のミステリアスな日常を4コマ漫画でお伝えしていきます. サイトに関するご意見やご質問はFacebookまたはTwitterでお問い合わせください.