【EXCELデータ分析】季節調整で時系列データの傾向を読み取る。具体的な手順から説明!

前の記事では、移動平均を使って、時系列データの傾向をわかりやすく見える化しました。

【EXCELデータ分析】「移動平均」で時系列データの傾向を変動要素の影響を排除して読み取る

今回は、季節調整によって、時系列データのジグザグをなめらかにしつつ、もうちょいミクロな傾向も見られるようにデータを整えていこうと思います。

 

季節調整とはなにか?

 

社会経済や経済の動向等を把握する際は、官公庁や民間などから発表される経済統計データが用いられています。

このような経済指標や時系列データ(※1)のうち、月や四半期のデータの動きをみると、一年を通して決まった動き(一年を周期とした変動)がみられます。このような動きは、季節変動と呼ばれています。季節変動が含まれるデータを分析する際には、季節変動を取り除くことが必要になる場合があります。このとき、何も手を加えない元のデータ(原数値)から季節変動を取り除く季節調整という統計的な手法が使われています。

なるほど統計学園高等部 より)

月ごとに時系列データを何年も並べて折れ線グラフにすると、程度の差はあれ、おおよそこの月には数字が大きくなって、この月には数字が小さくなって、といった周期的な傾向が見られる時があります。

このようなジグザグを季節変動と言っており、この季節変動の影響をなるべくなくして、データの推移を見たい。

その時に行う操作を季節調整といいます。

 

季節調整の手順

 

季節調整はおおざっぱに言うと、

”移動平均と各月の実際の値との差分から、各月の上振れ/下振れの程度を図り、それで元の数値を補正する”

操作のことです。

今回は、移動平均の回と同様の例を用いて、以下の4ステップで実際に作業を見ていこうと思います。

STEP1:移動平均を求める

STEP2:移動平均と月ごと数値(売上高)の比率を出し、季節要因を求める

STEP3:トリム平均を取り、補正をかける

STEP4:補正トリム平均から、季節要因を考慮した売上高推移を可視化する

 

STEP1:移動平均を求める

これはこの記事を参照してください。

STEP2以降で例に出すデータもこの記事のものと一緒です。

【EXCELデータ分析】「移動平均」で時系列データの傾向を変動要素の影響を排除して読み取る

 

STEP2:移動平均と月ごと数値(売上高)の比率を出し、季節要因を求める

 

月ごとに、売上高は移動平均からどれくらい離れているか求めます。

このように、各月ごとに「売上高/移動平均」の値を出します。(オートフィルで各月同じ作業をします)

これで、各月が移動平均からどの程度上振れ/下振れしているか、ということがわかります。

引き算でなく、割り算をするのは、各月を年ごとで比較したいためです。

次に、

ある月が年ごとにどのように推移しているかが見えるように、データの形を変更しましょう。

これで、各月の平均を出すことで、各月が移動平均よりどの程度の割合上振れ/下振れするのか、という基準を作ることができます。(これを季節変動値と言うそうです。)

 

 

STEP3:トリム平均をとり、補正をかける

 

ただ平均をとるよりも、正確に平均を取りたい場合は、トリム平均という考え方を用います。

トリム平均は、データセットの上位数%と下位数%の値を除いた上でとる平均のことです。

データセットの上位と下位は大きく上下に振れすぎている値(=外れ値)として捉え、その外れ値を排除することでより精度の高い値を取得します。

細かい説明は下のサイトを参考トリム平均とは、最小値付近のデータ、最大値付近のデータを除外して計算する平均値のことです。

 

トリムとは「刈り込む」、「切り込む」という意味です。トリウム平均は、調整平均とか刈込み平均とも呼ばれます。

データを大きさ順に並べて、両端からそれぞれ何%を取り除いたのかを、頭ににつけて、

○○%トリム平均

といった言い方をします。

  • 両端から5%ずつ除去したのであれば、5%トリム平均
  • 両端から10%ずつ除去したのであれば、10%トリム平均

です。そして、

  • 0%トリム平均は、ふつうの算術平均

です。取り除く分が0 なのですから、そうなりますよね。

25%トリム平均は、両側から25%ずつ除外され、全体のデータのうち真ん中の50%分が計算に使われます。これは、中央平均ともいいます。

統計学入門

 

今回は最大値と最小値を外れ値とみなしてトリム平均を出してみます。

各月ごとに最大値と最小値を求め、、、

 

それを除いた各月の平均を出します。これがトリム平均。

※青色が最小値、オレンジ色が最大値

 

(この次のSTEPで季節変動調整した売上高を出すにあたり、)移動平均の区間を12で設定しているため、その移動平均を元に算出しているトリム平均の合計値は12である必要があります。

現在トリム平均の合計値を出すと12.40となります。

 

ですので、これが12ぴったりになるようにするには、各月ごとに(12/12.40)の値をかけてやればよいですね。

(補正トリム平均は、トリム平均×補正比率で各月ごとに算出。※補正比率=12÷12.40(トリム平均合計))

これで補正トリム平均値が出せました。

 

これを見る限りでは、

遊園地・テーマパーク産業に関しては、8月がもっとも売上高が上振れし、3月と12月も稼ぎ時である、と。これは夏休みや春休み、クリスマスシーズン等と連動しているのでしょうかね。

逆に1月2月、6月は閑散期。

毎年こういった季節的な影響がどの程度あるのか、ということがこれで数字としてわかりました。

次はこの数値を売上高に反映させて見ましょう。

 

※余談ですが、行、あるいは列で数字を並べた時に数字が大きいほど色を濃くしたり、数字が小さいほど色を薄くしたりする(あるいはその逆)は、

条件付き書式 > カラースケール

から設定を行えます。ぐんと表が見やすくなりますよ!

 

STEP4:補正トリム平均から、季節要因を考慮した売上高推移を可視化する

 

移動平均では、じぐざぐを1年周期でざっくりとなめらかにしましたが、季節ごとの変動を考慮してもっと丁寧になめらかにしてみようと思います。

まずは補正トリム平均を縦に並べ直しましょう。

各年ごとに、1月~12月までの補正トリム平均をコピペしていきます。

 

次は各月ごとに売上高を補正トリム平均で割る作業をします。

(補正トリム平均は、各月ごとにこれだけ上振れ/下振れする傾向がありますよ、という値です。今回は、その上振れ/下振れ傾向をなくして時系列データがどう動いていっているかを見たいので、割り算をします)

※2010年分でこの作業をやらないのは、補正トリム平均を2011年以降のデータで出しているから。

(補正トリム平均を2011年以降のデータ出だしているのは、移動平均が2010年は出せないから。)

これもまたオートフィルで埋めましょう。

 

そうしてグラフ化すると、こうなります。

 

調整なしのただのジグザグでは、なんとなく右肩上がりな傾向が見えました。

移動平均を出すことで、右肩上がりでありつつも、ここ最近は成長が停滞気味であることが見えました。

さらに季節要因を考慮することで、ココ最近のさらにミクロな変化が見えるようになりました。

 

時系列データから傾向を読み解く際には、ぜひ移動平均、季節調整の考え方を使ってみてください。

最後まで読んでいただきありがとうございました。