{
"cells": [
{
"cell_type": "markdown",
"metadata": {
"colab_type": "text",
"id": "view-in-github"
},
"source": [
""
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "uHji7OXHr6jy"
},
"source": [
"# 基本的な統計量とガウス分布\n"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "fETUr2UKdylG"
},
"source": [
"## 要約統計量の概要\n",
"\n",
"- 要約統計量とは、標本の分布の特徴を代表的に(要約して)表す統計学上の値であり、統計量の一種\n",
" - 主にデータの分布の中心や拡がりなどを表わす\n",
" - 基本統計量、記述統計量、代表値とも呼ばれる\n",
"\n",
"以下は、要約統計量の例\n",
"\n",
"1.\tモーメントから求められる要約統計量\n",
" - 平均\n",
" - 分散、標準偏差\n",
" - 歪度\n",
" - 尖度\n",
"2.\t順序から求められる要約統計量\n",
" - 中央値\n",
" - 刈込平均(トリム平均)\n",
" - 四分位点\n",
" - 最小値・最大値\n",
" - 中点値\n",
" - 範囲\n",
"3.\t度数から求められる要約統計量\n",
" - 最頻値\n"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "y94i__s9anhk"
},
"source": [
"\n",
"## モーメントから求められる要約統計量\n",
"----------------------------------\n",
"\n",
"*N* 個のデータ $x_1,\\ x_2,\\ \\dots,\\ x_N$\n",
"に対する統計量を考える。まず、平均値 $\\mu$ と、平均値まわりの *m*\n",
"次中央モーメント[1] $\\mu_m$ を\n",
"\n",
"$$\\mu = \\frac{1}{\\,N\\,} \\sum_{i = 1}^N x_i$$\n",
"\n",
"$$\\mu_m = \\frac{1}{\\,N\\,} \\sum_{i = 1}^N (x_i - \\mu)^m \\quad\\ (m = 2, 3, \\cdots)$$\n",
"で定義する。\n",
"\n",
"### 平均\n",
"\n",
"原点まわりの1次モーメント $\\mu$。和を個数で割ったもの。\n",
"\n",
"$$\\mu = \\frac{1}{\\,N\\,} \\sum_{i = 1}^N x_i$$\n",
"\n",
"### 分散、標準偏差\n",
"\n",
"2次中央モーメントから求められる統計量。分布の広がりを表す。\n",
"\n",
" 分散: $\\sigma^2 = \\mu_2$ \n",
" 標準偏差: $\\sigma = \\sqrt{\\mu_2}$\n",
"\n",
"### 歪度\n",
"\n",
"3次中央モーメントから求められる統計量。分布の左右非対称の度合いを表す。\n",
"\n",
" $\\gamma_1 = \\mu_3 / \\sigma^3$\n",
"\n",
"### 尖度\n",
"\n",
"4次中央モーメントから求められる統計量。分布の峰の鋭さ(裾野の広さ)を表す。\n",
"\n",
" $\\gamma_2 = \\mu_4 / \\sigma^4 - 3$\n",
"\n",
"ただし、3 を引かない定義もある。\n",
"\n",
"[1]: 用語 「*m* 次中央モーメント」は、竹内啓(編集委員代表)『統計学辞典』東洋経済新報社,\n",
" 1989 による。"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "3bLDFR1Cajcu"
},
"source": [
"## 順序から求められる要約統計量\n",
"----------------------------\n",
"\n",
"以下、昇順にソートされた *N* 個のデータ\n",
"$x_1 \\le x_2 \\le \\dots \\le x_N$ に対する統計量(順序統計量)を考える。\n",
"\n",
"### 中央値\n",
"\n",
"メジアン、メディアン (median)\n",
"ともいう。データの大きさに関してちょうど中央に当たるデータ\n",
"$x_{(N+1)/2}$\n",
"。ただし、整数でない添数に対する中央値は線形補間によって定義する(つまり\n",
"*N* が偶数のときは $x_{N/2}$ と $x_{(N+1)/2}$\n",
"の平均とする)。\n",
"\n",
"### 刈込平均(トリム平均)\n",
"\n",
"最大値、最小値を除外した平均。除外する数を増やして行くと、最後は中央値になる。そのため、中央値は刈込平均の一つである[^1]。\n",
"\n",
"### 四分位点\n",
"\n",
"集団を値の大きさで4等分するとき、その境界となる値。$x_{(N+3)/4}$ \n",
"を第1四分位点、$x_{(3N+1)/4}$ \n",
"を第3四分位点という。$x_{(2N+2)/4}$\n",
"、つまり第2四分位点は中央値である。\n",
"\n",
"### 最小値・最大値\n",
"\n",
"集団に含まれる最も小さい値 $x_1$ と、最も大きい値 $x_N$ 。\n",
"\n",
"これらの統計量を視覚化するために、箱ひげ図を用いる。\n",
"\n",
"#### 中点値\n",
"\n",
"最大値と最小値を足して2で割ったものを中点値とよび、代表値として用いることがある。\n",
"\n",
"#### 範囲\n",
"\n",
"最大値と最小値の差を範囲(range)とよび、代表値として用いることがある。記号はRを用いる。\n",
"\n",
"[^1]: 西岡康夫,数学チュートリアル やさしく語る 確率統計,オーム社, p.5,\n",
" p.52013, ISBN 9784274214073"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "x4JeaAU7gsCm"
},
"source": [
"## 度数から求められる要約統計量\n",
"----------------------------\n",
"\n",
"### 最頻値\n",
"\n",
"モード (mode)、並み数\n",
"ともいう。データのうち、度数分布において最も高い度数を示す値、つまり最も多く現れているデータの値。"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "HwPODbPrnCrv"
},
"source": [
"## 不偏分散 (unbiased estimator of varianc)\n",
"---\n",
"\n",
" $$u^2 = \\frac{1}{N-1} \\sum_{i = 1}^N (x_i - \\mu)^2 \\quad\\ $$\n",
"\n",
"不偏分散 $u^2$ \n",
"\n",
"通常母集団の分散は通常の 分散を、標本から母集団の分散を推測する場合は不偏分散を使う。\n",
"Excel 関数の var() は不偏分散を計算する。\n",
"\n",
"機械学習の分野では、不偏分散ではなく、上記で説明した分散を使うことが多い。\n",
"(どちらを用いたとしても、似た結果を得ることができ、ほとんど同じ解釈をすることができる)\n",
"\n",
"参考:https://www.heisei-u.ac.jp/ba/fukui/pdf/stattext05.pdf"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "FinLvEXXuYTr"
},
"source": [
"## IRISデータを使って要約統計量を求めてみる\n",
"\n",
"---\n",
"\n",
"- IRISデータとは?\n",
"\n",
"機械学習で有名なデータ.\n",
"IRISは「あやめ」の花を意味しており,UCI(カリフォルニア大学アーバイン校)から機械学習やデータマイニングの検討用データとして配布されている.\n",
"\n",
"あやめの種類は以下のとおり.\n",
"\n",
"- セトナ(setosa)\n",
"- バーシクル(versicolor)\n",
"- バージニカ(virginica)\n",
"\n",
"このデータを以下の情報から分析する.\n",
"\n",
"- がく片長(Sepal Length)\n",
"- がく片幅(Sepal Width)\n",
"- 花びら長(Petal Length)\n",
"- 花びら幅(Petal Width)\n",
"\n",
"単位は、いずれも cm。\n",
"\n",
"\n",
"\n",
"https://carp.cc.it-hiroshima.ac.jp/~tateyama/Lecture/AppEx/LoadCSV.html\n",
"\n",
"---"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"id": "YPJCzVRJ0dm3"
},
"outputs": [],
"source": [
"import pandas as pd\n",
"import numpy as np\n",
"from matplotlib import pyplot as plt\n",
"import seaborn as sns\n",
"from sklearn import datasets"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"id": "TQqZqhrh0oma"
},
"outputs": [],
"source": [
"iris = datasets.load_iris()\n",
"iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)\n",
"iris_df['name'] = iris.target_names[iris.target]"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 297
},
"id": "jzMHMa_F0zQ-",
"outputId": "1e71b94e-7799-4f41-acbf-e52a09f89e91"
},
"outputs": [
{
"data": {
"text/html": [
"
\n", " | sepal length (cm) | \n", "sepal width (cm) | \n", "petal length (cm) | \n", "petal width (cm) | \n", "
---|---|---|---|---|
count | \n", "150.000000 | \n", "150.000000 | \n", "150.000000 | \n", "150.000000 | \n", "
mean | \n", "5.843333 | \n", "3.057333 | \n", "3.758000 | \n", "1.199333 | \n", "
std | \n", "0.828066 | \n", "0.435866 | \n", "1.765298 | \n", "0.762238 | \n", "
min | \n", "4.300000 | \n", "2.000000 | \n", "1.000000 | \n", "0.100000 | \n", "
25% | \n", "5.100000 | \n", "2.800000 | \n", "1.600000 | \n", "0.300000 | \n", "
50% | \n", "5.800000 | \n", "3.000000 | \n", "4.350000 | \n", "1.300000 | \n", "
75% | \n", "6.400000 | \n", "3.300000 | \n", "5.100000 | \n", "1.800000 | \n", "
max | \n", "7.900000 | \n", "4.400000 | \n", "6.900000 | \n", "2.500000 | \n", "