狠狠躁日日躁,激情五月综合色婷婷一区二区,综合三区后入内射国产馆,噜噜噜综合,天天躁夜夜躁狠狠久久

統(tǒng)計(jì)學(xué)簡(jiǎn)史

[導(dǎo)讀]有人說(shuō)當(dāng)前的人工智能就是統(tǒng)計(jì)學(xué)

【有人說(shuō)當(dāng)前的人工智能就是統(tǒng)計(jì)學(xué)】      


統(tǒng)計(jì)學(xué)簡(jiǎn)史、起源,分布統(tǒng)計(jì)是初產(chǎn)生于研究對(duì)國(guó)家,特別是對(duì)其經(jīng)濟(jì)以及人口的描述。當(dāng)時(shí)現(xiàn)代數(shù)學(xué)尚未形成。因此那時(shí)的統(tǒng)計(jì)史基本上是經(jīng)濟(jì)史的范疇?,F(xiàn)代統(tǒng)計(jì)主要起源于研究總體(population),變差(variation)和簡(jiǎn)化數(shù)據(jù)(reduction of data)。第一個(gè)經(jīng)典文獻(xiàn)屬于John Graunt(1620-1674),其具有技巧的分析指出了把一些龐雜、令人糊涂的數(shù)據(jù)化簡(jiǎn)為幾個(gè)說(shuō)明問(wèn)題的表格的價(jià)值。他注意到在非瘟疫時(shí)期,一個(gè)大城市每年死亡數(shù)有統(tǒng)計(jì)規(guī)律,而且出生兒的性別比為1.08,即每生13個(gè)女孩就有14個(gè)男孩。大城市的死亡率比農(nóng)村地區(qū)要高。在考慮了已知原因的死亡及不知死亡年齡的情況下,Graunt估計(jì)出了六歲之前兒童的死亡率,并相當(dāng)合理地估計(jì)出了母親的死亡率為1.5%。因此,他從雜亂無(wú)章的材料中得出了重要的結(jié)論。他還給出了一個(gè)新的生命表。

(哈雷)(1656-1742)利用了Breslau的記有死亡年齡的數(shù)據(jù),改進(jìn)了Graunt的生命表并引進(jìn)了死亡率的定義。瑞士數(shù)學(xué)家  Leonhard  Euler(歐拉)(1707-1783)提出了平穩(wěn)生命表的概念。John DeWitt(625-1672)等人最早討論退休金和人壽保險(xiǎn)的方案。Thomas Robert Malthus(馬爾薩斯)(1766-1834),Alfred  James lotke(1880-1949),Ronald Aylmer Fisher(費(fèi)歇)(1890-1962),及 William Feller(費(fèi)勒)(1906-1970)等人用漸趨復(fù)雜的數(shù)學(xué)來(lái)研究生命表的理論,這對(duì)人類及其它總體的動(dòng)方學(xué)描述具有顯著意義。

(1623-1687)是Graunt同時(shí)代的經(jīng)濟(jì)學(xué)家及朋友。他認(rèn)為需要建立中央統(tǒng)計(jì)部來(lái)利用人口統(tǒng)計(jì)學(xué)的知識(shí);由行政區(qū)利用列出記錄年齡,性別,婚姻狀況等細(xì)節(jié)的記錄表格來(lái)收集數(shù)據(jù);要有出生,死亡,婚姻,收入,教育和商業(yè)等方面的統(tǒng)計(jì)數(shù)據(jù)。

當(dāng)時(shí)在研究諸如死亡等時(shí)間序列時(shí),Graunt注意到了隨機(jī)的起伏;但他僅以機(jī)械的術(shù)語(yǔ)加以描述一把這些與鐘表運(yùn)動(dòng)的忽動(dòng)忽停相聯(lián)系。實(shí)際上,這種不規(guī)則的變化也影響賭博和天文學(xué)。因此,其后進(jìn)一步導(dǎo)致了隨機(jī)誤差的誤差分布概念的出現(xiàn)。

賭博產(chǎn)生了第一個(gè)機(jī)會(huì)事件的模型:如果硬幣就骰子的每一面都有相同概率,則導(dǎo)致估計(jì)拋一個(gè)均衡的硬幣所出現(xiàn)的正面次數(shù)或擲一個(gè)均衡的骰子的總點(diǎn)數(shù)。更一般地,Abraham de Moivre(棣美佛)(1667-1754)導(dǎo)出了對(duì)二項(xiàng)分布的一個(gè)近似;這使每一個(gè)概率都等于正態(tài)曲線下的一塊面積,這是一種的中心極限定理。Pierre simon Laplace(拉普拉斯)(1749-1827)導(dǎo)出了對(duì)男子出生比例的類似的漸近公式。Jacob Bernoulli(伯努利)(1654-1705)以弱大數(shù)定律支持了對(duì)大樣本均值的使用。Tomas simpson(辛普森)(1710-1761)計(jì)算了同分布隨機(jī)變量和的精確分布,同樣也支持了對(duì)大樣本均值的使用。

在天文學(xué)中,要對(duì)一些運(yùn)動(dòng)星體位置的未知參數(shù)進(jìn)行估計(jì),通常某種意義上“最好的”估計(jì)都是來(lái)源于一些注定不和諧的觀察值,因?yàn)橹灰^察值在數(shù)量上超過(guò)參數(shù),就會(huì)產(chǎn)生度量誤差。Roger Cotes(1682-1716),Thomas Bayes(貝葉斯)(1702-1761),Euler,Johann Toblas Mayer(1723-1762),Rudger Josif Boskovic(1711-1787),Laplace,和Adrien Marie Legendre(勒讓德)(1752-1833)都在研究這個(gè)問(wèn)題。后來(lái)被 Friedrich Gauss(高斯)(1777-1855)解決。John Michell(米歇爾)(1724-1793)用統(tǒng)計(jì)方法證明了雙星的存在。

然而,認(rèn)定現(xiàn)代統(tǒng)計(jì)理論是由精算科學(xué),人口學(xué)和天文學(xué)的需要而發(fā)展來(lái)的觀點(diǎn)是不正確的;事實(shí)上,它是由心理學(xué),醫(yī)學(xué),人體測(cè)量學(xué),遺傳學(xué)和農(nóng)業(yè)的需要發(fā)展出來(lái)的。

直到1830年,幾乎所有的經(jīng)驗(yàn)分布都是關(guān)于一維誤差或一個(gè)非數(shù)值變量。在1830年之后,天文學(xué)家和社會(huì)學(xué)家 Adolphe Jacques Quetele(1796-1874)使得諸如身高體重之類的度量值的變量的經(jīng)驗(yàn)分布通俗化。他在生物統(tǒng)計(jì)研究中大量利用了理論二項(xiàng)分布和正態(tài)分布。后來(lái) Ladislaus von Bortkiewicz(1868-1931)報(bào)告了在普魯士兵團(tuán)中由馬踢造成的受傷事故,發(fā)現(xiàn)Poisson(普阿松)分布和官方統(tǒng)計(jì)學(xué)有關(guān)。在計(jì)算血紅細(xì)胞數(shù)目上,Poisson分布也被 Ernst Abbe(1840-1905)所用。從那時(shí)起,該分布被大量地用于計(jì)數(shù)的試驗(yàn)中,比如閃光的計(jì)數(shù)。

在生物學(xué)上,統(tǒng)計(jì)方法使得Johann Gregor Mendel(孟德?tīng)枺?822-1884)認(rèn)識(shí)到某些主要遺傳基因的存在,它們?cè)?,l和2三個(gè)水平顯現(xiàn),其中水平0(雙隱性)能和水平1和2區(qū)別開(kāi)來(lái)。他能確定有相同或不相同的水平的個(gè)體之間交配的結(jié)果,而且提出了某些生物學(xué)事件等價(jià)于擲一個(gè)硬幣的模型;他能對(duì)任意交配的結(jié)果給出概率并用實(shí)驗(yàn)來(lái)驗(yàn)證其假設(shè)。

雖然經(jīng)濟(jì)學(xué)沒(méi)有產(chǎn)生超出用初等理論來(lái)求解問(wèn)題,但在較早的醫(yī)學(xué)統(tǒng)計(jì)中卻夾生了有意思的問(wèn)題。Philippe Pinel(1745-1826)和 Pierre Charles alexandre Louis(1787-1872)開(kāi)始了建立疾病分類的困難課題;這些工作人員保存了精確和完整的所有病例的記錄,并且能給出和預(yù)后有關(guān)的統(tǒng)計(jì)數(shù)字。Louis能有利用跟蹤調(diào)查的方法反駁以當(dāng)時(shí)廣泛濫用的放血療法。他的三個(gè)學(xué)生是值得一提的:Jules Gavarret(1808-1890)寫了一本醫(yī)學(xué)統(tǒng)計(jì)的教科書;書中有應(yīng)用Simeon Dents Poisson(1780-1840)理論來(lái)對(duì)兩個(gè)比例進(jìn)行檢驗(yàn)的許多應(yīng)用;Oliver Wendell Holmes(1809-1894)和他的不知名的數(shù)學(xué)顧問(wèn)對(duì)一系列分娩熱病例給出了有趣的分析,證明該病是傳染的,這優(yōu)于任何十九世紀(jì)的類似研究;William Farr(1807-1883)在官方統(tǒng)計(jì)學(xué)中建立了新的慣例。

更直接的原動(dòng)力來(lái)自于遺傳學(xué)(確切地說(shuō)是優(yōu)生學(xué))。Francis Galton(1822一1911)在1886年研究了兩代豌豆重量之間的相關(guān)時(shí)發(fā)現(xiàn)了Y關(guān)于一個(gè)正態(tài)變量X的線性回歸及類似于橢圓的等概率線。從此,多元正態(tài)分布就經(jīng)常出現(xiàn)在文獻(xiàn)之中;而兩個(gè)和三個(gè)變量的正態(tài)分布在Lapface時(shí)就已經(jīng)知道了。該聯(lián)合分布能夠由互相獨(dú)立的正態(tài)隨機(jī)變量的線性變換而構(gòu)造,例如Giovanni Antonio amedeo Plana(1781-1863)和Irenee-Jules Bravais(1811-1863)和Irenee-Jules Bravais(1811-1863)所做,而且,反過(guò)來(lái)它能分解為互相獨(dú)立的正整隨機(jī)變量的積,如 Auguste Bravais(l820-l884)在最小二乘理論上導(dǎo)出了一般形式的多元正態(tài)分布;Arthur Cayley(1821-1895)把xTAx化簡(jiǎn)為平方和并確定了該常數(shù)值。這些人都未對(duì)A-1=V的非對(duì)角線元素感興趣,這里V是協(xié)方差矩陣。Galton后來(lái)說(shuō)“這些誤差或偏差正是我想要研究并了解的?!?/p>

正態(tài)分布在理論統(tǒng)計(jì)中扮演了一個(gè)非常重要角色。有許多理由來(lái)說(shuō)明這一點(diǎn);一般來(lái)說(shuō),如果一個(gè)模型包含著正態(tài)分布的幾個(gè)非平凡特性,則它必須具備所有的特性。

在 1895年,Karl Pearson(皮爾森)(1857-1936)認(rèn)識(shí)到更理論的統(tǒng)計(jì)分布的需要,并且得到作為微分方程(Pearson方程組)解的密度函數(shù);和另外一些統(tǒng)計(jì)學(xué)家一樣,Andrei andreevic Markov(馬爾科夫)(1856-1922)不愿意用Pearson分布方程組,因?yàn)榧词沟昧似柹で€作為一個(gè)極限分布,也沒(méi)有明顯的模型來(lái)產(chǎn)生它們。Markov進(jìn)一步證明Pearsonχ2統(tǒng)計(jì)量為樣本尺寸乘以Wihelm Hector Bichard albrecht Lexis(1837一1914)的離散系數(shù)。Walter Frank Raphael Weldon(1860-1906)利用取獨(dú)立初第二項(xiàng)變量和的方法得到二項(xiàng)變量的聯(lián)合分布。許多作者,比如 Alexander Craig Aitken(1895-1967),已經(jīng)參與了發(fā)展該思想;但是許多其它思想已經(jīng)被用來(lái)獲得聯(lián)合分布。在KarlPearson的方法不能產(chǎn)生更多的聯(lián)合分布之后,Sergei Natanovic Bernstein(1880-1968)認(rèn)為一個(gè)更具有生產(chǎn)價(jià)值的方法可能存在于隨機(jī)過(guò)程的領(lǐng)域中。

、KarPearson時(shí)代,1890-到1920年為止的英國(guó)生物統(tǒng)計(jì)學(xué)派的主要就為(i)收集并化簡(jiǎn)了許多經(jīng)驗(yàn)數(shù)據(jù);(ii)定義了具有多重和總相關(guān)系數(shù)ρ的聯(lián)合正態(tài)分布,還定義了估計(jì)誤差的聯(lián)合分布;(iii)關(guān)于擬合度的χ2檢驗(yàn),比較觀察分布和理論分布,包括由 Herbert Edward Soper(1865-1930)引進(jìn)的條件Poisson變量;(iV)分析列聯(lián)表,特別是利用χ2統(tǒng)計(jì)量;(V)當(dāng)邊緣分布充分細(xì)分時(shí)由最大似然法估計(jì)ρ;(Vi)當(dāng)邊緣分布沒(méi)有充分定義時(shí)估計(jì)ρ;(Vii)由一個(gè)統(tǒng)一的參數(shù)估計(jì)系統(tǒng)來(lái)描述一組曲線,即矩方法;(Viii)利用正態(tài)定理到遺傳選擇問(wèn)題;(iX)通往獨(dú)立性一般定理的某些進(jìn)展;(X)通往估計(jì)和檢驗(yàn)估計(jì)精確性的一個(gè)理論的進(jìn)展;(Xi)構(gòu)造了適當(dāng)?shù)谋怼?/p>

與此同時(shí),在法國(guó)的 Feli院x Edouard Justin emile borel(1871-1956),Maurice Frenchet(1878-1973)及Jules Henri Poincare(1854-1912),和在俄國(guó)的 Alekandr Aleksandrovic Cuprov(1874-1926),A.A.Markov和Vsevolod Ivanovic Romanovsky(l879-1954)作出許多貢獻(xiàn),特別是把數(shù)據(jù)的數(shù)學(xué)處理嚴(yán)格化。

、R.A.FISHER時(shí)代,所有的皮爾森的方法都可以應(yīng)用于大樣本,而且可以對(duì)方差作出較精確的估計(jì)。但對(duì)于出現(xiàn)在實(shí)際應(yīng)用中的小樣本,這些方法就未必奏效了。William Sealy Gosset(1876一1937)國(guó)此導(dǎo)出了一個(gè)檢驗(yàn);按照R.A.Fisher的建議該檢驗(yàn)在作了一個(gè)變換之后成為現(xiàn)在熟和的t-檢驗(yàn)。

以其四篇值得紀(jì)念的論文開(kāi)創(chuàng)了一個(gè)新紀(jì)元;相關(guān)系數(shù)估計(jì)的精確分布;協(xié)調(diào)一致了Mendelian和生物統(tǒng)計(jì)對(duì)遺傳學(xué)的不同方法;正確解釋了列聯(lián)表;估計(jì)和推斷的一般定理。在1920年之后,在Rothamsted實(shí)驗(yàn)室,F(xiàn)isher發(fā)展了有廣泛應(yīng)用價(jià)值的方差分析和試驗(yàn)與分析的理論。Fisher有很強(qiáng)的數(shù)學(xué)功底,特別是在組合論(combinatorics)方面,他能吸引其他數(shù)學(xué)家作為助手。他對(duì)應(yīng)用領(lǐng)域的選擇是很幸運(yùn)的;研究結(jié)果都能立即應(yīng)用并有明顯的經(jīng)濟(jì)效應(yīng);能夠有效地簡(jiǎn)化假設(shè),比如誤差的正態(tài)性和獨(dú)立性;和一些頑固的教條斗爭(zhēng);試驗(yàn)的花費(fèi)都很低;沒(méi)有倫理問(wèn)題。許多重要的步驟用來(lái)發(fā)展上面提到的Pearson學(xué)派的工作的一些分支。在(iii)和(iV)中的許多重要問(wèn)題被解決了;給出了正確的自由度;K.Pearson已經(jīng)為該目標(biāo)前進(jìn)了一段;在(Vii)中Fisher發(fā)明了更有效的方法來(lái)估計(jì);他拒絕了用矩方法來(lái)確定分布;在(Vi)中Fisher和Yate發(fā)表了統(tǒng)計(jì)表。

在誤差分布和互相獨(dú)立性的假設(shè)使其能用正交變換來(lái)保持線性和二次型之間的獨(dú)立性,這樣就可合理地利用t-檢驗(yàn)和F-檢驗(yàn)。Fisher看到農(nóng)業(yè)試驗(yàn)?zāi)芾酶鼜?fù)雜的設(shè)計(jì)。于是,雙向表的影響能夠按地理因素(行和列)及處理來(lái)分別分析。這能推廣到n維Latin方的應(yīng)用,把處理用于Latin方相應(yīng)的不同字母的位置上;該方法通過(guò)實(shí)行Graeco-Latin方來(lái)實(shí)現(xiàn)。Fisher及其助手和同事研究了設(shè)計(jì)問(wèn)題,缺損值問(wèn)題,非正交性等等;這些人包括Maurice Stevenson Bartlett(1910-),William Gemmell cochran(1909-1982),他們后來(lái)在美國(guó)特別有影響。此外,還有 David John Finney(1917-),Joseph Oscar Irwin(1898-1982),Kanneth Mather(1911一),及 Frank Yates(1902-)。

、NEYMAN-PEARSON時(shí)代,1937-(1894-1981)及 Egon sharpe Pearson(1895一1980)在一系列的杰出的文章中澄清了推斷理論,特別是有關(guān)顯著性檢驗(yàn)的基本原理一其合理性以往是常被批評(píng)。早期的顯著性檢驗(yàn)為關(guān)于二項(xiàng)變量之間或均值之間的,它們被 K.Pearson推廣至χ2檢驗(yàn),被R.A.Fisher推廣到F-檢驗(yàn),推廣了Student T-檢驗(yàn)。Neyman和 E.S.Fearson看出,為了更有效,應(yīng)該考慮與待檢驗(yàn)的零假設(shè)相對(duì)應(yīng)的備選假設(shè)。他們?cè)谶@樣的檢驗(yàn)中設(shè)立兩種誤差并因素導(dǎo)致了他們的基本引理,似然比檢驗(yàn),及勢(shì)的概念;他們順便驗(yàn)證了大多數(shù)常見(jiàn)的顯著性檢驗(yàn)的應(yīng)用;他們還引進(jìn)了置信限;但是他們的體系從未被Fisher所承認(rèn)。Neyman和Pearson的工作影響了許多人,特別是美國(guó)人。

、現(xiàn)代,統(tǒng)計(jì)變得越來(lái)越數(shù)學(xué)化了。為了解對(duì)分布和推斷理論的一般描述,需要測(cè)度論;Fourie分析成為研究波動(dòng)最自然的工具;在分析方差的推斷上,和在具對(duì)稱性的設(shè)計(jì)以及在諸如 Graeco Latin方及 Steiner三元體的特別結(jié)構(gòu)的代數(shù)的推斷上需要應(yīng)用群論和數(shù)論。組合理論能用于編碼理論和有限幾何。因此統(tǒng)計(jì)數(shù)學(xué)成為純粹數(shù)學(xué)的一部分,并且因其在各種領(lǐng)域的廣泛應(yīng)用而被研究。因?yàn)橥ǔ5慕y(tǒng)計(jì)檢驗(yàn)已經(jīng)徹底地研究了,而且往往被置身于某些具體應(yīng)用領(lǐng)域的實(shí)際工作者所應(yīng)用,所以在研究人員和實(shí)際工作者之間出現(xiàn)了一個(gè)距離;但是這種現(xiàn)象在其他開(kāi)拓性的領(lǐng)域中也能看到。

電子計(jì)算機(jī)已經(jīng)帶來(lái)了巨大的變化。數(shù)據(jù),比如海洋學(xué)中水面的高程,電磁能(特別是無(wú)線電波)的流量,工業(yè)過(guò)程的狀態(tài),生物的狀態(tài),都能用計(jì)算機(jī)收集;沒(méi)有計(jì)算機(jī)這些是不實(shí)際或不可能的。計(jì)算機(jī)節(jié)省了大量人力,特別是在同樣輸出的重復(fù)計(jì)算上,例如在計(jì)算多元分析的相關(guān)系數(shù)和其它檢驗(yàn)統(tǒng)計(jì)量時(shí)。由于計(jì)算軟件包可用于所有通常的檢驗(yàn),特別是關(guān)于方差分析,則節(jié)省更多。高速計(jì)算使得有可能運(yùn)用匹配和排列檢驗(yàn)。當(dāng)分布不能寫成一個(gè)封閉的分析公式時(shí),顯著性水平也能計(jì)算;另外,計(jì)算機(jī)能用 Monte Carlo方法計(jì)算每一個(gè)事件的概率或近似顯著性水平。由于利用軟件包很方便,有時(shí)導(dǎo)致對(duì)統(tǒng)計(jì)問(wèn)題欠考慮而產(chǎn)生的結(jié)論,特別是在多重比較上。

模型在統(tǒng)計(jì)和科學(xué)工作中的作用現(xiàn)已被廣泛承認(rèn);雖然基于應(yīng)用領(lǐng)域的經(jīng)驗(yàn)和知識(shí),模型的選擇在某種程度上是美學(xué)上的和任意的;但是一旦模型被選定,所有的推斷都是數(shù)學(xué)的,用不著進(jìn)一步的假設(shè)或原則。所用的推斷體系在某種程度上也是任意的;備選體系已經(jīng)被大量研究?;谛叛龅耐茢嗖辉侔缪葜匾慕巧X惾~斯模型在 Fisher時(shí)代曾一度失色,之后又被更廣泛地應(yīng)用。信息論已被引進(jìn);多數(shù)統(tǒng)計(jì)推斷看來(lái)仍然以和Neyman-Pearson理論一致的方式來(lái)運(yùn)作,運(yùn)用在K.Pearson和Fisher時(shí)代引人的檢驗(yàn)。

現(xiàn)代國(guó)家的增長(zhǎng)的能力和興趣要求以低花費(fèi)收集更多的數(shù)據(jù)。Antlers Nicolai Kiaer(1838-1919)有遠(yuǎn)見(jiàn)地建議概率抽樣應(yīng)補(bǔ)充到人口普查方法中。這樣的抽樣已經(jīng)在其被Prasanta chandra Mahalanobis(1893-1972)引進(jìn)之后成為在印度和其它地方的標(biāo)準(zhǔn)實(shí)踐。被Andrew Shewhart(1891-1967)所推廣的工業(yè)質(zhì)量控制方法也有類似的意圖。

許多新的分支或?qū)iT化和應(yīng)用已經(jīng)被發(fā)展了:決策論,時(shí)間序列,多元分析,經(jīng)濟(jì)計(jì)量學(xué),博奕論,臨床試驗(yàn),非參數(shù)推斷,序貫分析,數(shù)學(xué)生物分類學(xué),及可靠性。數(shù)量統(tǒng)計(jì)及其應(yīng)用正在繼續(xù)發(fā)展和擴(kuò)大。


來(lái)源(湖南省統(tǒng)計(jì)局)[H.O.Lancaster 中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)系 吳喜之 譯][譯自  Encyclopedia of Statistical Science,wiley,New Yoyk 1988]

版權(quán)聲明
本文由智客號(hào)作者上傳并發(fā)布,智客號(hào)僅提供信息發(fā)布平臺(tái)。文章僅代表作者個(gè)人觀點(diǎn),不代表千家智客立場(chǎng)。

相關(guān)推薦

評(píng)論文章

全部評(píng)論(0)

人機(jī)與認(rèn)知實(shí)驗(yàn)室

北京郵電大學(xué)人機(jī)交互與認(rèn)知工程實(shí)驗(yàn)室 聯(lián)系方式:twhlw@163.com

格式j(luò)pg品質(zhì)60圖片即可