統計学








統計学(とうけいがく、英: statistics、独: Statistik)とは、統計に関する研究を行う学問である。


統計学は、経験的に得られたバラツキのあるデータから、応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす。統計的手法は、実験計画、データの要約や解釈を行う上での根拠を提供する学問であり、幅広い分野で応用されている[1]


現在では、医学(疫学、EBM)、薬学、経済学、社会学、心理学、言語学など、自然科学・社会科学・人文科学の実証分析を伴う分野について、必須の学問となっている。また、統計学は哲学の一分科である科学哲学においても重要な一つのトピックになっている。[2]




目次






  • 1 語源


  • 2 統計的手法


    • 2.1 ベイズ統計学




  • 3 統計学の用語


  • 4 歴史


  • 5 統計の困難さ


  • 6 教育


    • 6.1 日本




  • 7 脚注


  • 8 関連項目


  • 9 参考文献


  • 10 外部リンク





語源


英語で統計または統計学を「statistics (スタティスティクス)」と言うが、語源はラテン語で「状態」を意味する「statisticum (スタティスティークム)」であり、この言葉がイタリア語で「国家」を意味するようになり、国家の人力、財力等といった国勢データを比較検討する学問を意味するようになった。[3]



統計的手法







実験計画

データ収集の規模や対象、割付方法をコントロールし、より公正で評価可能なデータが収集できるよう検討すること。統計の世界には「ゴミのようなデータを使っていくら解析しても出てくる結果はゴミばかりだ」[4]という格言がある。これはデータ収集の前にその方法を十分に検討する必要があることを強調したものである。

記述統計

記述統計とは、収集したデータの要約統計量(平均、分散など)を計算して分布を明らかにする事により、データの示す傾向や性質を知ること。

推計統計

データからその元となっている諸性質を確率論的に推測する分野。推計統計学の項に詳述。

尺度水準


データ(あるいは変数、測定)の尺度はふつう次のような種類(水準)に分類される。尺度水準によって、統計に用いるべき要約統計量や統計検定法が異なる。

  • 質的データ、カテゴリデータ


    • 名義尺度:単なる番号で順番の意味はない。電話番号、背番号など。


    • 順序尺度:順序が意味を持つ番号。階級や階層など。



  • 量的データ、数値データ


    • 間隔尺度:順序に加え間隔にも意味がある(単位がある)が、ゼロには絶対的な意味はない。摂氏・華氏温度、知能指数など。


    • 比率尺度:ゼロを基準とする絶対的尺度で、間隔だけでなく比率にも意味がある。絶対温度、金額など。






また、事象をモデル化し、数学のモデルとして解析するオペレーションズリサーチ(OR)の分野も統計学の一分野である。


これらは、意思決定に応用されている。



ベイズ統計学



18世紀にベイズによって考案された手法。



統計学の用語




  • 要約統計量

    • 平均、最頻値(モード)、中央値(メジアン)、分散、標準偏差、共分散、相関係数



  • 正規分布


    • カール・フリードリヒ・ガウス(誤差論)
      • 誤差



    • 標準得点
      • 偏差値





  • 大数の法則、中心極限定理


  • 推計統計学


    • 母集団、無作為抽出(ランダムサンプリング)


    • 期待値、不偏分散

    • 有意

    • 尤度関数




  • 多変量解析


    • 回帰分析、重回帰分析

    • 因子分析

    • 主成分分析

    • 判別分析

    • 共分散構造分析



  • 傾向推定

  • 数量化理論



歴史






統計学の源流は国家または社会全体における人口あるいは経済に関する調査(東西を問わず古代から行われている)にある。


学問としては、17世紀にはイギリスでウィリアム・ペティの『政治算術』などが著述され、その後の社会統計学に繋がる流れが始まった。また、ゴットフリート・ライプニッツやエドモンド・ハレーによる死亡統計の研究も行われた。これらの影響の基、18世紀にはドイツのヨハン・ペーター・ジュースミルヒが『神の秩序』(1741年)で人口動態にみられる規則性を明らかにしたが、これには文字通り「神の秩序」を数学的に記述する意図があった。


ドイツでは17世紀からヨーロッパ各国の国状の比較研究が盛んになったが、1749年にアッヘンヴァルがこれにドイツ語で「Statistik (シュタティシュティーク)」(「国家学」の意味)の名をつけている。19世紀初頭になるとこれに関して政治算術的なデータの収集と分析が重視されて、「Statistik」の語は特に「統計学」の意味に用いられ、さらにイギリスやフランスなどでも用いられるようになった。この頃アメリカ、イギリス、フランスなどで国勢調査も行われるようになる。


一方ブレーズ・パスカル、ピエール・ド・フェルマーに始まった確率論の研究がフランスを中心にして進み、19世紀初頭にはピエール=シモン・ラプラスによって一応の完成を見ていた。また、カール・フリードリヒ・ガウスによる誤差や正規分布についての研究も統計学発展の基礎となった。ラプラスも確率論の社会的な応用を考えたが、この考えを本格的に広めたのが「近代統計学の父」と呼ばれるアドルフ・ケトレーであった。彼は『人間について』(1835年)、『社会物理学』(1869年)などを著し、自由意志によってばらばらに動くように見える人間の行動も社会全体で平均すれば法則に従っている(「平均人」を中心に正規分布に従う)と考えた。ケトレーの仕事を契機として、19世紀半ば以降、社会統計学がドイツを中心に、特に経済学と密接な関係を持って発展する。代表的な人物にはアドルフ・ワグナー、エルンスト・エンゲル(エンゲル係数で有名)、ゲオルク・フォン・マイヤーがいる。またフローレンス・ナイチンゲールも、社会医学に統計学を応用した最初期の人物として知られる。


同じく19世紀半ばにチャールズ・ダーウィンの進化論が発表され、彼の従弟に当たるフランシス・ゴルトンは数量的側面から生物進化の研究に着手した。これは当時「biometrics (バイオメトリクス)」(生物測定学)と呼ばれ、多数の生物(ヒトも含めて)を対象として扱う統計学的側面を含んでいる。ゴルトンは回帰の発見で有名であるが、当初生物学的と思われたこの現象は一般の統計学的対象の解析でも重要であることが明らかとなる。ゴルトンの後継者となった数学者カール・ピアソンはこのような生物統計学をさらに数学的に発展させ(数理統計学)、19世紀終わりから20世紀にかけ記述統計学を大成する[5]


20世紀に入ると、ウィリアム・ゴセット、続いてロナルド・フィッシャーが農学の実験計画法研究をきっかけとして数々の統計学的仮説検定法を編み出し、記述統計学から推計統計学の時代に移る。ここでは母集団から抽出された標本を基に、確率論を利用して逆に母集団を推定するという考え方がとられる。続いてイェジ・ネイマン、エゴン・ピアソンらによって現代の推計統計学の理論体系が構築され、これは社会科学、医学、工学、オペレーションズ・リサーチなどの様々な分野へ応用されることとなった。


こうして推計統計学は精緻な数学理論となった反面、応用には必ずしも適していないとの批判が常にあった。


これに呼応して、在来の客観確率を前提に置く統計学に対し主観確率を中心に据えたベイズ統計学が1950年代に提唱された。ベイズの定理に依拠する主観確率の考え方は母集団の前提を必要とせず不完全情報環境下での計算や原因の確率を語るなど、およそ在来統計学とは正反対の立場に立つため、その当時在来統計学派はベイズ統計学派のことを『ベイジアン』と名付けて激しく対立した。しかし主観確率には、新たに取得した情報によって確率を更新する機能が内包され、この点が大きな応用の道を開いた。今や統計学では世界的にベイズ統計学が主流となり、先端的応用分野ではもっぱらベイズ統計学が駆使されている。


計量経済学、統計物理学、バイオテクノロジー、疫学、機械学習、データマイニング、制御理論、インターネットなど、あらゆる分野でベイズ統計学は実学として活用されている。スパムメールフィルタや日本語入力の予測変換など身近な応用も数多い。20世紀末にはマルコフ連鎖モンテカルロ法など理論面で様々な革新的考案もなされ、旧来の統計学では不可能であったような各分野で多くの応用がなされるようになっている。これらベイズ統計学についての展開は、いずれも計算環境の進歩と不可分である。



統計の困難さ



一度信頼できる統計データが取れさえすれば統計学的分析は数学的に行えるが、信頼できる統計データの収集はとても難しい。実際、統計を取る人の主義主張によって統計値が大きく異なることも多々あり、レーガン政権は当時アメリカにホームレスが30万人しかいないと主張したが、活動家たちはその10倍の300万人いると主張した[6]


例えば、質問の仕方一つで結果がガラリと変わってしまう。強姦に関するある調査で、女子大生に「男性からアルコールや薬物を飲まされて、望まない性交をした事がありますか」と質問することで「女子大生の1/4が強姦されたことがある」という結論を出したが、批判者たちはこの調査で強姦体験者と認定された女子大生たちを集めて再調査したところ、その3/4がその体験を強姦だと考えていないことが分かった[6]


また、暗数の考慮にも主観がつきまとってしまう。暗数とは「統計に出ない値」のことで、例えば強姦のような犯罪はそれがタブーであるために警察に届けないことも多く、したがって統計に表れない。それには統計を正しく読み解くには暗数を考慮する必要があるが、統計値を多く見積もりたい人は意識的・無意識的に暗数を多く見積もってしまう可能性があり、逆に統計値を少なく見積もりたい人は暗数を少なく見積もってしまう可能性がある。


正しい統計データから正しい統計操作を行ってもなお騙すことが可能である。たとえば、ここ四十数年で少年犯罪は1/4になっているが、最近10年では微増している。この時、微増となっている最近10年分のデータだけを提示して、「近年少年犯罪は増加している」という主張をすれば、これは成立することになる[7]。さらに、グラフの縦軸(=犯罪数の軸)をわざと縦長に描くことで犯罪数が急上昇しているかのように見せかけることも可能である。



教育


統計学は「実学」に端を発しており、近代社会以降世界に普及した「市場経済社会」を牽引した原動力とも言える学問である。そのため、自然科学・社会科学・人文科学の各分野の垣根を越えて分化かつ拡大を続ける中、基礎において汎用性が高い学問の構造を有している。


社会生活の至る所で統計技術の適用が貢献できる場面がある以上、統計学とその適用方法を学習する上では社会の実態に即して頻繁に技法を適用してみることが重要であり、そのように出来るためには何よりまず統計処理を身近で制限無く実施できるような「統計処理環境」の備えが必要である。PC・ソフトウェア・インターネット環境などのIT環境が急速に進化低廉化して普及したことで身近に統計処理環境を持ちうるようになり、なおかつ莫大な統計情報がインターネットを通じて公開されているため、研究・調査・学習の処理材料にも不自由しない。


実際21世紀に入って以降は、それまでの確率論と数理統計学を重点に置いたカリキュラムに加え、データを処理して求める答えに近づく「データ解析」のスキルが教育されるようになっている。


元来コンピュータを使った数値計算に際してはまず、IEEE 754規格にあるように丸め誤差が暗黙のうちに生じることや、有効数字の概念の認識が重要で、子供のころ算数で学んだような計算結果にはならないことがあることを知っておかねばならない。さらに、統計計算では殊に重要な乱数についても、コンピュータ上で用いるのは疑似乱数であることや、良質な疑似乱数生成方式「メルセンヌ・ツイスタ」を計算ソフトウェアや開発用言語の全てが必ず備えているわけではないこと、暗号論的乱数はさらにまた別の乱数概念であること、なども実は大切な基礎知識である。


人が得意とするパターン認識の力を積極的に用いるため、統計データの「グラフ化」が古来常套手段として用いられているが、ITの支援を得ることで大量のデータを様々な形に、しかも瞬時にグラフ化(あるいは『見える化』)することが可能となった。そのためのグラフ作成ソフトも多数存在するが、その他の数値解析ソフトウェアや数式処理システム、そして殊に下記のような統計アプリケーションではグラフ化するための機能が充実している。一方、近年オフィスソフト機能等で極端なグラフ装飾を施すことが横行している。この結果として、例えば3Dグラフなどを安易に用いると遠近感や区間面積などから表示すべき真の数量とは異なった認識を受け手に与える事がある。本来3Dグラフ表示は人の空間認識力を活かし得る優れた表現手法であるが、意味なく勢い付け等で用いるのは本来的な視覚化からは退行するばかりか、意図して受け手の誤認識を誘導する事も可能となる。「グラフは直感的に分かるから全て善である」と一般に認識されていることや、前出「統計の困難さ」にある内容をふまえると、統計の視覚化とその解釈に関するリテラシ教育は初等段階から特に注意を要する。


上記のように、用いる統計処理環境ごとに適用分野・目的・方法論・使用者との相性などは異なる。そういった統計処理環境固有の特性なども含めて、いかなる道具もそうであるように、数多く体験の機会を作るほかに理解の早道は無い。


広く普及した表計算ソフトウェアが統計処理・グラフ表現機能を持っているので、誰でも手軽に統計処理入門体験は出来る。しかしあくまでビジネスソフトであり、科学技術ソフトではないExcelの計算の信頼性については常に批判が絶えない[8][9][10][11](Excelに限らず普及している表計算ソフトウェアはどれも信頼に足る統計計算はできないとの報告もある[12])。近年では研究・教育機関が公開するオープンソースなフリーソフトの中からきわめて優秀な計算ソフトウェアが育っており、プロプライエタリソフトの問題点顕在化により関心の高まった統計技術資産の持続可能性という観点からも、統計教育にあたってはこれらオープンソースソフトウェアの積極的な活用が推奨される。


統計の研究・教育に適した代表的なフリーソフトウェア



  • アプリケーション


    • R言語 - GNU GPL・フリーウェアの統計用数値解析ソフトウェア。確率分布や統計モデルを簡潔に記述でき、無限大・非数・欠損値定数を持つベクトル処理言語。アメリカ食品医薬品局公認。


    • GNU Octave - GNU GPL・フリーウェアの数値解析ソフトウェア。理工学分野でのデファクトスタンダードとも言えるMATLABと互換の命令体系を持つベクトル処理言語。


    • Scilab - Scilab License・フリーウェアの数値解析ソフトウェア。MATLAB類似の文法をもったベクトル処理言語。付属するソフトウェアScicosを用いてダイアグラム操作で視覚的にシステムフロー図を描いてシステムダイナミクスシミュレーションが可能。INRIAが開発。


    • Ox言語 - 行列計算のために作られたベクトル処理言語。フリーウェア。オックスフォード大学が開発。


    • Maxima - 数式処理システム。MITのMacsyma直系のGNU GPL・フリーウェア版。


    • Risa/Asir - 数式処理システム。マルチプラットホーム。OpenXMを実装。フリーウェア。富士通が開発。



  • ライブラリ

    • GNU Scientific Library

    • Apache Commons Math

    • SAMMIF

    • DLLSA

    • ISMLIB


    • Incanter(Clojure用ライブラリ)


    • NumPy(Python用ライブラリ)


    • SciPy(Python用ライブラリ)




統計計算に関連するソフトウェアのカテゴリ



  • グラフ作成ソフト

  • 統計ソフトウェア

  • 数値解析ソフトウェア

  • 数式処理システム



日本


日本においては統計学がそれぞれの分野へ分化された形で組み込まれているため「統計学科」を置く大学がなかったが、2017年度に滋賀大学が日本で初めて統計学を研究の核とするデータサイエンス学部を新設。


国立の統計学研究・教育機関としては、1944年に設立された統計数理研究所があり、AIC、数量化理論、確率微分方程式などの顕著な成果を生み出し、統計学研究を牽引している[13]


平成21年(2009年)11月に公示された[14]新学習指導要領によって高校数学Iに「データの分析」が、また数学Bに「確率分布と統計的な推測」が挙げられ、平成24年(2012年)度入学生から適用されることとなった。これは約30年ぶりの統計学習の拡充である。「データの分析」はデータの散らばりと相関について教え、その目的は「統計の基本的な考えを理解するとともに,それを用いてデータを整理・分析し傾向を把握できるようにする。」である。総務省統計局では「学校における統計教育の位置づけ」[15]を解説し、指導者の支援にあたっている。



脚注


[ヘルプ]



  1. ^ グリコ遊びやギャンブル等にも活用可能。“「統計学が最強」の西内啓氏「パチンコには二度と行かない」”. NEWSポストセブン (2013年5月3日). 2017年12月23日閲覧。


  2. ^ これは、統計学が科学的な研究において方法論上の基礎的な部分を構成していながら、確率という一種捉えがたい概念を扱っているためであり[要出典]、その意味や在り方が帰納の正当性の問題などと絡めて真剣に議論されている。」[誰?]


  3. ^ ラテン語で「statisticum (collegium) (スタティスティークム・コレーギウム)」という表現があるが、この意味は「社会状態の科学」である[要出典]


  4. ^ 英: Garbage in, garbage out.


  5. ^ 現在では生物統計学「biostatistics (バイオスタティスティクス)」とも呼ばれる、この単語は現在では生体認証という別の意味で使われている。

  6. ^ abジョエル・ベスト 『統計はこうしてウソをつく : だまされないための統計学入門』 林大訳、白揚社、2002年。ISBN 4-8269-0111-9。


  7. ^ パオロ・マッツァリーノ 『反社会学講座』 イースト・プレス、2004年。ISBN 4-87257-460-5。


  8. ^ Excel使うな Okumura's Blog 三重大学高等教育創造開発センター教授・教育情報システム部門長 奥村晴彦のブログ


  9. ^ 52, Issue 10, Pages 4567-4878 (15 June 2008)  Special Section on Microsoft Excel 2007, Edited by B.D. McCullough


  10. ^ Excel は,コンピュータ・ソフトウェアの三種の神器のようになっていますが,とんでもないこともあるというお話。 群馬大学社会情報学部教授 青木繁伸のサイト


  11. ^ 間違いだらけのExcel関数ヘルプ「財務・統計関数編」市販解説本で孫引きしている点も警告


  12. ^ On the Numerical Accuracy of Spreadsheets : the Journal of Statistical Software Vol.34, Issue4, Apr2010


  13. ^ 現在は情報・システム研究機構を構成する一機関。


  14. ^ 高等学校学習指導要領解説・数学編 - 文部科学省


  15. ^ 統計学習の指導のために(先生向け) - 総務省統計局



関連項目











  • 確率論


  • 客観確率、主観確率

  • ベイズ確率

  • ベイズ統計学

  • 情報理論


  • 疑似乱数 / モンテカルロ法

  • 暗号理論

  • 相関関係と因果関係

  • プラグマティズム


  • 統計物理学 / 統計力学

  • オペレーションズ・リサーチ


  • 計量経済学 / 数理ファイナンス / 金融工学


  • 生物統計学 / 疫学

  • 根拠に基づく医療

  • 品質管理

  • 経営工学

  • 測定

  • データサイエンス

  • 信号処理

  • 制御理論

  • データマイニング

  • 分類 (統計学)

  • 機械学習

  • ビッグデータ

  • スーパーコンピュータ

  • シミュレーション



参考文献



  • 『統計学入門』 東京大学教養学部統計学教室(編)、東京大学出版会、1991年

  • J. R. Taylor 『計測における誤差解析入門』 林 茂雄,馬場 凉(訳)、東京化学同人、2000年

  • 蓑谷 千凰彦 『推定と検定のはなし』 東京図書、1988年

  • 竹之内 脩 『ルベーグ積分』 培風館〈現代数学レクチャーズ〉、1980年

  • R. A. フィッシャー 『統計的方法と科学的推論』 渋谷 政昭, 竹内 啓(訳)、1962年



外部リンク




  • 統計数理研究所 公式サイト

  • 統計学(Statistics)

  • 統計学の系譜

  • 日本統計学会

  • 日本行動計量学会

  • 応用統計学会

  • 日本計算機統計学会









Popular posts from this blog

Accessing regular linux commands in Huawei's Dopra Linux

Can't connect RFCOMM socket: Host is down

Kernel panic - not syncing: Fatal Exception in Interrupt