標本と標準偏差(第4回)::システムトレード完全攻略(エクセル活用術)

システムトレードのトップへ > システムトレードのノウハウ > システムトレードと金融工学入門  >標本と標準偏差(第4回)

標本と標準偏差(第4回)

標準偏差の求め方ですが、その前に「母集団」と「標本」という考え方を知っておく必要があります。



例えばあなたはある学習塾の関係者で、調査中のS中学校の中学1年生500人の成績の中からたまたま12人の生徒の英語のテストの回答結果が入手できたとします。そこであなたはこの学校の中学1年生の実力を12人のテスト結果から検証してみたいと考えます。統計学では全体500人のことを「母集団」と呼び、12人のことを「標本」と呼んでいます。

システムトレード標本



選ばれる標本緑に含まれるデータと標本青に含まれるデータは当然異なります。母集団から標本を選ぶということは、毎回違うデータを選ぶことになります。その毎回違うデータから得られた標準偏差は母集団の標準偏差にかなり近いことが知られています。通常株価や工業製品の不良率などの不特定多数を検証する場合の標準偏差とは標本の標準偏差を指します。



システムトレード21

上表は標本緑のデータの内訳とみなします。

1.まず標本の平均値を求める。平均値は標本の値の総和÷サンプル数となり、65.5となります。

(69+50+55+64+95+80+30+65+68+90+65+55) ÷ 12 = 65.5

2.次に平均値と各点数の差を求めそれを2乗する。なぜ2乗するかといえば、表からも分かるようにすべての平均の差を足すと0になり都合が悪いからです。平均値は±左右対称の釣り合い点に位置するので、0になる。しかし2乗すれば足しても2乗になりません。これを一度全部足してサンプル数(12)から1引いた11で割る。この値311.2が「分散」と呼ばれているものです。

備考:なぜ1を引くかというと「標本」から標準偏差を求める時は1引くと決まっている。「母集団」の場合は1引かない。理由はあるが難しいのでここでは説明しません。とりあえず今は気にしなくてもいいと思います、だだ「標本」の時は1引くと覚えていてください。

3.最初に差を2乗したので、「分散」の平方根を求めるとそれが1標準偏差に対応する値となる。今回のケースは±1σ(標準偏差)は約17.6となります。


標準偏差17.6に平均値(65.5)を足すと、-1σの値は47.9点に、+1σは83.1点となり、平均点65.5を中心に47.9から83.1の間にテスト結果が収まる確率は68.27%になるだろうと読み取れます。

別の使い方としては、例えば標本の12人以外の生徒で自分の学習塾の生徒いて、その生徒の点数が90点だったとする。この生徒のテストの出来は大体上位何位くらいなのか?が数値として表わすことができるようになります。90点は平均点(65.5点)から24.5点プラスに離れているので、24.5÷17.6(1σ)=1.3σとなり、1.3σは約90%にあたり90点取った生徒は、500人中上位50人にはぎりぎり入っている可能性が高いということが推測できます。この標準偏差何個分という表し方は「スタンダードユニット(Standard Units)」または「Z-スコア(z-scores)」と呼ばれています。



対応する確率はエクセル関数で簡単に求められます。

=NORMSDIST(標準偏差)


で解は求められます。今回は標準偏差は1.3なので、=NORMSDIST(1.3) とすれば、解は0.903199515となり、約90%となります。


しかしここである疑問が湧きます。もし例題とは違う12人を選んだとしたらそこから得られる結果も違うのではなかろうか?もし、たまたま選んだ12人の生徒のなかに100点を取った生徒が3人含まれていたら、平均点、標準偏差も全く違ってきます。最初ほうでふれた標本緑と標本青の違いを思い出してください。

システムトレードを説明するための標準偏差の表2番

例えば、上表を標本青であるとみなします。この場合だと平均は71.9点に上がり、標準偏差は23.1点に広がる。この結果からは90点取ったとしてもZスコアーから分かる確率は約83%となり、上位10%は厳しいという結果になります。


同じ母集団であるはずなのに、全く違う結果になる。一方は上位10%は確実だといい、もう一方ではそれは厳しいという。一体これは何を意味しているのか?一つは母集団の情報はサンプルの情報と全く同じではないということです。言い換えるといくらかの誤差をサンプルは含むということです。じゃサンプル(標本)から結果を求めるなんてまどろこっしいことはやめて、母集団(500人)の情報から直接、標準偏差やら平均を求めればいいのではないのか?と思うかもしれません。今回のように500人限定なら、且つ500人の全テスト結果が分かるなら、それが一番ベストなのは分かり切っていることです。しかし現実問題として母集団が限定されるのはまれで、株価のデータのように未来を含んだりするのがほとんどです。また全データがそろうのも難しい場合がほとんどです。逆説的ですが、母集団が無限だから統計学の知識が役立つといってもいい。ではこの結果を統計学ではどのように処理しているのか?これに対する1つの解が次回説明を試みる「中央極限定理」や「標準誤差」です。



セルレーダー最新版ダウンロードした(^▽^)?

人気ブログランキングへ





1位取れたら未公開プログラム沢山吐き出すので応援のポチ2つしてね(≧ω≦)

投稿者 システムトレーダー壱式 : 2008年03月27日 09:35



トラックバック

このエントリーのトラックバックURL:
http://systemtrader.info/cgi/mt/mt-tb.cgi/71

コメント

コメントしてください




保存しますか?


//-->