Our Business
私たちの仕事

2021年5月

会社ぶろぐ

2021年5月の「会社ぶろぐ」です。

2021年5月

やってみようシリーズ ~主成分分析編~

こんにちは!
INSIGHT LAB アドバンス、エンジニアのtommy(トミー)です!

段々暑くなってきましたね。
身体が暑さになれていない時期なので、皆様お気をつけて過ごしてくださいね!

さて、毎年、猛暑!酷暑!!と言われていますが、
夏の暑さって場所によってどう違うのだろうとふと思い、
アメダスのデータを使って、主成分分析を行ってみたので、考察を含めて結果をお伝えします!


概要をかいつまんでの説明となりますが、以下 「長文注意!!!」 です(^_^;)


まず、「主成分分析」とは
   相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分と呼ばれる変数を合成する
   多変量解析の一手法。データの次元を削減するために用いられる。
   (ウィキペディア(Wikipedia)より)

はい、分かりそうで分からないですね。
つまり、「Aというものを説明する要素が100個もあったら大変だから、5個くらいにまとめよう」というのが、
主成分分析です。


今回は、アメダスから取得できるいくつかの項目(気温など)を
都道府県の夏の特性を説明する要素にまとめてみました。


①:データの取得・前処理
 アメダスのデータは、気象庁のHPから取得できます
 https://www.jma.go.jp/jma/menu/menureport.html
 
 今回は、都道府県の県庁所在地毎に、
 2005年~2020年(16年間)の6月~8月(3ヶ月間)の5項目を取得、平均値を算出しました。
 
     項目名          表記名
   ・平均気温(℃)    = temperature(C)
   ・合計降水量(mm)  = precipitation(mm)
   ・平均風速(m/s)   = wind speed(m/s)
   ・平均湿度(%)    = humidity(%)
   ・日照時間(h)    = daylight(h)
 
②:分析
 まず、データの散らばりを確認するための散布図作成、各項目の相関係数を求めました。

散布図と相関係数

散布図と相関係数

散布図 と 相関係数

相関が一番強いのは、「気温」と「湿度」の0.54。
逆に一番弱いのは、「風速」と「湿度」の0.01ですね。


次に、各データを標準化(平均0、分散1)後、主成分分析を行いました。

都道府県毎の各主成分における傾向を確認するため、主成分得点を見てみます。

主成分得点(5か所)

主成分得点(5か所)

主成分得点

例えば、北海道は主成分1(PC1)と主成分2(PC2)に対して負の関係が強く、
逆に主成分3(PC3)と主成分5(PC5)に対して正の関係が強いようです。

続いて、各主成分の分散・寄与率・累積寄与率を見てみます。

分散・寄与率・累積寄与率

「寄与率」は、各主成分(PC1~PC5)が全体に占める割合になり、
値が大きいほどデータに対する説明力が高い主成分になります。

「累積寄与率」は、寄与率を大きい順に足したものになり、
70~80%あれば、データの概要をうまく説明できていると言えます。

表のとおり、主成分3(PC1~PC3)まで使えば、85%強説明できますが
(分散の値も1~3と4~5で隔たりがありますしね)

今回は、さらに絞り、
赤枠で囲った主成分1と主成分2でどのような結果になるか見ていきます。

主成分負荷量(PC1とPC2)

主成分負荷量(PC1とPC2)

主成分負荷量

主成分1(PC1)と主成分2(PC2)がどうなっているか見ていきましょう。

主成分1(PC1)=赤枠 は、
 「気温」「日照時間」「風速」の要素が強く、特に「気温」が強いです。
 つまり、暑いのは単純に気温が高いから!!という事ですね。

主成分2(PC2)=青枠 は、
 「降水量」「湿度」が共に強いです。
 こちらは、雨が多くて湿度が高い、蒸し暑さを見ているようですね。


お待たせしました、それでは各都道府県がどうなっているのか見ていきます!

都道府県のプロット(PC1とPC2)

都道府県のプロット(PC1とPC2)

主成分プロット

左の図が、
 主成分1と2における都道府県を配置した図になります。
右の図は、
 各地(青丸は左の都道府県の位置)の方向性を示しています。


例えば、一番右にある沖縄県は、
temperature(C) = 気温 の矢印の延長上に位置していますので、
気温の影響が高い事が分かります。

もう少し見てみましょう。

考察

まず、オレンジで囲った地域は、
humidity(%) = 湿度 の影響が大きいようです。
同じ暑さでも、沖縄県と比べて蒸し暑い地域という事ですね。

逆に、黄色で囲った地域は、
daylight(h) = 日照時間 が暑さに貢献しているようです。
こちらは、太陽からの照り付けが厳しい地域かもしれません。

オレンジと同じく、主成分2(PC2)が強い、水色で囲った地域は、
precipitation(mm) = 降雨量 が湿度よりも影響を受けています。
ただ、気温の影響がマイナス方向にでているので、
雨が多いので、全国的には気温が低めに出た地域のようですね。

最後に、青色の北海道ですが、降雨量・湿度とも低く、気温も低い。
つまり、北海道の夏は、雨が少なくからっとしており、
日本の中では過ごしやすい地域なようです。

まとめ

以上、主成分分析で見た「日本の夏の暑さ」でした。
長文お疲れ様でした(^_^;)

今回なんとなく持っていたイメージ
  一番暑いのは沖縄だろなー、北海道は涼しそうだなー ……

が、データからも読み取れた事、
又暑いでも色んな暑いがあり、地域によって異なる事が分かりました。

当たり前といえばその通りな事でも、データを使って可視化していく事で重みが異なってきますね。

今回は、16年間の3か月平均を使いましたが、
6月と8月、昔と今、で傾向が変わったのかなど、別の視点で分析すると新たな発見があるかもしれませんね。



今回はここまでです。
次回もよろしくお願いします。


Facebook始めました
ぜひ、フォローをよろしくお願いします
https://www.facebook.com/isl.advance

ご相談・お問い合わせはこちらから
https://www.isl-advance.jp/inquiry

先端ITコンサル

グループ全体の事例を駆使し、企業の目的に沿った効果的なデータ利活用環境を提案します

DX人材支援

データ利活用等の実践経験をもつ当社IT人材が、業務に寄り添いプロジェクトをお手伝いします

データ活用教育

不足する先端IT人材を育成するため、データ活用分野での実践教育をユーザ向けに実施します

DX移行

DX戦略、働き方改革等、デジタルを活用した企業の変革ストーリーを描くご支援を行います

会社ぶろぐ

私たちの日々の様子、こぼれ話やビジネスエピソードをブログ形式でお伝えします

Page Topへ

お問合せはこちらから