欧美亚洲中文,在线国自产视频,欧洲一区在线观看视频,亚洲综合中文字幕在线观看

      1. <dfn id="rfwes"></dfn>
          <object id="rfwes"></object>
        1. 站長(zhǎng)資訊網(wǎng)
          最全最豐富的資訊網(wǎng)站

          大數(shù)據(jù)是數(shù)據(jù)越多越嗎?專家解答來了!

          數(shù)據(jù)并不是越多越好

          統(tǒng)計(jì)本身是一門收集數(shù)據(jù)的科學(xué),但是數(shù)據(jù)是不是越多越好呢?很難說。

          歷史上有一個(gè)非常有名的例子。大約500年之前,丹麥有一個(gè)天文學(xué)家叫第谷,他從當(dāng)時(shí)的丹麥國王那里要了一筆錢,建了一個(gè)實(shí)驗(yàn)室。第谷天天去觀察每顆行星的運(yùn)動(dòng)軌跡,并且每天記錄下來。于是第谷觀察了20年,記錄了大量的數(shù)據(jù)。不過,這個(gè)數(shù)據(jù)太多了,第谷花了大量時(shí)間、精力來分析這個(gè)數(shù)據(jù),但沒有發(fā)現(xiàn)任何規(guī)律。

          這時(shí)候,一個(gè)叫開普勒的人出現(xiàn)了。開普勒認(rèn)為,第谷每天去觀測(cè),一年365天每一顆行星都會(huì)有365個(gè)數(shù)據(jù),這樣20年觀測(cè)記錄積累下來,要分析處理的數(shù)據(jù)就太多了,而且那個(gè)時(shí)候的數(shù)據(jù)分析只能依靠手工計(jì)算,這個(gè)處理工作量實(shí)在太大了。于是開普勒就說,能不能每年只給我一個(gè)數(shù)據(jù),比如說你可以只告訴我每年的1月1日,地球在什么位置,土星在什么位置,太陽在什么位置,等等。這樣20年的觀測(cè)數(shù)據(jù)篩選之后,每一顆行星的數(shù)據(jù)就只有20個(gè)了。開普勒知道,地球每隔365天會(huì)回到同一個(gè)位置,然后他把地球的位置固定,再分析其他行星跟地球的相對(duì)位置。開普勒通過固定地球的位置,對(duì)其他行星位置20年的數(shù)據(jù)進(jìn)行分析,就成功得到了其他行星的運(yùn)行軌跡。此后開普勒就發(fā)現(xiàn),如果地球位置不變的話,那么其他行星的20年運(yùn)行軌跡畫出來之后,這些行星都是圍著太陽運(yùn)轉(zhuǎn),運(yùn)行軌跡都是橢圓形的。由此開普勒發(fā)現(xiàn)了行星運(yùn)動(dòng)的規(guī)律。

          從這個(gè)天文學(xué)上的著名案例,我們可以看出來,數(shù)據(jù)太多可能會(huì)導(dǎo)致信息量變得巨大,反而增加尋找到規(guī)律的難度。從而需要通過科學(xué)的方法簡(jiǎn)化數(shù)據(jù)。

          關(guān)于這方面的案例還有不少。比如說美國總統(tǒng)富蘭克林·羅斯福。他是美國歷史上唯一一位連任四屆的總統(tǒng)。1932年的時(shí)候他第一次當(dāng)總統(tǒng),當(dāng)時(shí)美國和許多國家正在遭受經(jīng)濟(jì)危機(jī),羅斯福面臨的壓力也很大。因此到了1936年羅斯福想競(jìng)選自己的第二任總統(tǒng)的時(shí)候,美國許多人預(yù)測(cè)羅斯福很難連任。那一次,羅斯福的主要競(jìng)選對(duì)手是蘭登。當(dāng)時(shí)就有兩個(gè)機(jī)構(gòu)在預(yù)測(cè)總統(tǒng)選舉結(jié)果,其中一個(gè)是《文學(xué)文摘》雜志,它在當(dāng)時(shí)是一個(gè)非常有影響力的刊物,因?yàn)檫@個(gè)雜志此前幾次對(duì)總統(tǒng)選舉結(jié)果的預(yù)測(cè)都成功了。到了1936年美國總統(tǒng)選舉的時(shí)候,文學(xué)文摘搞了一個(gè)大的調(diào)查統(tǒng)計(jì),它調(diào)查了240萬人。具體方式就是在雜志里面夾上關(guān)于總統(tǒng)選舉的調(diào)查問卷,然后收集反饋。其實(shí)當(dāng)時(shí)文學(xué)文摘調(diào)查的還不止240萬人,還要更多,只不過最后收回來的有效問卷是240萬份。正是根據(jù)這個(gè)調(diào)查結(jié)果,文學(xué)文摘宣布他們預(yù)測(cè)蘭登將戰(zhàn)勝羅斯福贏得大選。

          而當(dāng)時(shí)還有一個(gè)機(jī)構(gòu),準(zhǔn)確地說是一個(gè)年輕人,叫蓋洛普,他的預(yù)測(cè)結(jié)果跟文學(xué)文摘的預(yù)測(cè)正好相反。起初蓋洛普做這類調(diào)查統(tǒng)計(jì),是因?yàn)樗哪赣H要競(jìng)選眾議員,他是給他母親幫忙,于是就在經(jīng)費(fèi)不多的情況下做了對(duì)較小人群的相關(guān)調(diào)查,然后這個(gè)調(diào)查結(jié)果很成功,他母親當(dāng)上了眾議員。接下來他就想調(diào)查一下,羅斯福和蘭登誰會(huì)贏得1936年競(jìng)選。但是他比不了文學(xué)文摘的財(cái)大氣粗,所以他只調(diào)查了5000個(gè)人,根據(jù)這5000人的調(diào)查結(jié)果,蓋洛普預(yù)測(cè)羅斯福當(dāng)選。

          結(jié)果羅斯福果然成功連任總統(tǒng),蓋洛普的預(yù)測(cè)勝利了。

          這個(gè)選舉結(jié)果出來之后,對(duì)《文學(xué)文摘》雜志的聲譽(yù)造成了巨大的沖擊:畢竟文學(xué)文摘調(diào)查了240萬人,最后卻發(fā)布了一個(gè)錯(cuò)誤的預(yù)測(cè),而蓋洛普只調(diào)查了5000人,發(fā)布的預(yù)測(cè)卻是正確的。結(jié)果,文學(xué)文摘因?yàn)檫@個(gè)事情后來就關(guān)門倒閉了。而那個(gè)年輕人蓋洛普,就此成立了一個(gè)民意調(diào)查公司,也就是現(xiàn)在的蓋洛普咨詢公司。

          這是事情的結(jié)果。那么為什么調(diào)查了5000人的預(yù)測(cè),要比調(diào)查240萬人的結(jié)果更準(zhǔn)確呢?我們先不說240萬這種海量數(shù)據(jù),它在規(guī)模變大以后會(huì)帶來計(jì)算效率的下降,我們也不提這類海量收集數(shù)據(jù)會(huì)導(dǎo)致成本居高不下的問題。根本的原因,是當(dāng)時(shí)文學(xué)文摘通過雜志夾帶問卷進(jìn)行調(diào)查的這種方式。因?yàn)楫?dāng)初問卷是夾在雜志中發(fā)放的,所以文學(xué)文摘收集來的240萬份有效問卷,實(shí)際面對(duì)的都是訂閱了這份期刊的用戶。那么,當(dāng)時(shí)什么樣的家庭會(huì)訂閱這樣的雜志呢?一般來說都是家境比較好的家庭,所以,文學(xué)文摘雖然號(hào)稱調(diào)查了240萬人之多,但是它調(diào)查的主要群體,是當(dāng)時(shí)美國國內(nèi)相對(duì)而言有錢的那部分人。而窮人群體的意見,它這個(gè)調(diào)查實(shí)際并沒有覆蓋到。

          數(shù)據(jù)的量多不一定就代表準(zhǔn)確,收集來的數(shù)據(jù)質(zhì)量好、有代表性,才有可能分析出準(zhǔn)確的結(jié)果。

          統(tǒng)計(jì)學(xué)是一門分析數(shù)據(jù)的藝術(shù)

          前面舉了一些例子,提醒我們需要非常小心地設(shè)計(jì)方案收集數(shù)據(jù)。數(shù)據(jù)收集上來之后,我們還要做數(shù)據(jù)分析。按照前面大不列顛百科全書的說法,統(tǒng)計(jì)學(xué)同樣是一門分析數(shù)據(jù)的藝術(shù)。

          講到數(shù)據(jù)分析,在這里我只講兩個(gè)基本概念:相關(guān)與因果。為什么講這兩個(gè)概念呢?這是因?yàn)槿藗兂3;煜@兩個(gè)概念,常常會(huì)把相關(guān)關(guān)系誤以為是因果關(guān)系。在許多科學(xué)研究和政策問題評(píng)價(jià)中,我們更關(guān)心因果關(guān)系。但是,當(dāng)我們看到了某種形式的相關(guān)關(guān)系后,常常會(huì)誤以為這就是我們追求的因果關(guān)系了。

          比如說,在中世紀(jì)的歐洲,很多人相信,虱子對(duì)人的健康是有幫助的。這是因?yàn)楫?dāng)時(shí)人們發(fā)現(xiàn),得病的人身上很少有虱子,而健康人的身上反而是有虱子的。這是長(zhǎng)期的觀察累積下來,形成的經(jīng)驗(yàn)。在中世紀(jì)的歐洲,很長(zhǎng)一段時(shí)間里人們都根據(jù)這個(gè)經(jīng)驗(yàn),得出這樣一個(gè)因果推論:這個(gè)人身上有虱子,所以他身體健康,那個(gè)人身上沒虱子,說明他身體不健康。

          當(dāng)時(shí),人們確實(shí)觀察到虱子的存在與否跟人是否健康構(gòu)成了相關(guān)關(guān)系,但是,這是因果關(guān)系嗎?有了溫度計(jì)以后,人們就發(fā)現(xiàn)了,這不是真正意義上的因果關(guān)系:因?yàn)槭訉?duì)人的體溫非常敏感,它只能在一個(gè)很小的溫度區(qū)間范圍生存下來。而人體一旦生病的話,很多時(shí)候會(huì)出現(xiàn)發(fā)燒癥狀。人體一發(fā)燒,溫度變化,虱子就無法適應(yīng)發(fā)燒時(shí)候的熱度,于是跑掉了。如果我們只停留在觀察到健康與否和虱子多寡之間存在關(guān)系,那實(shí)際只是相關(guān)關(guān)系,而不是因果關(guān)系。與之類似的例子還有很多,比如說,我們看到每年冰淇淋銷量增加的同時(shí),各地不幸溺亡的人數(shù)也在增加。那么這兩件事情是不是構(gòu)成因果關(guān)系呢?常識(shí)告訴我們,肯定不是。其實(shí)是因?yàn)槊磕隁鉁厣咧?,游泳的人可能就多了起來了,隨之溺亡人數(shù)也就相應(yīng)增加了。而同樣是因?yàn)闅鉁厣撸苛艿匿N量也會(huì)增加。

          也就是說,如果我們觀察到一個(gè)因素出現(xiàn)了一點(diǎn)點(diǎn)變化,另外一個(gè)因素也會(huì)隨著跟它變化,它們之間可能就有相關(guān)關(guān)系,但是這種相關(guān)關(guān)系,并不意味著這兩個(gè)因素構(gòu)成因果關(guān)系。

          如何判斷因果關(guān)系呢,這就需要我們非常小心,而且要非常藝術(shù)地做數(shù)據(jù)分析了,我們最終還是要回到統(tǒng)計(jì)學(xué)上來。

          這里,我們舉一個(gè)歷史上的疾病案例,這就是小兒麻痹癥,也就是脊髓灰質(zhì)炎。現(xiàn)在大家看到的小兒麻痹癥病例比較少,因?yàn)楝F(xiàn)在有相應(yīng)的疫苗。歷史上,脊髓灰質(zhì)炎曾經(jīng)是一個(gè)讓人非常害怕的疾病。

          在20世紀(jì)50年代,當(dāng)時(shí)美國一所大學(xué)的實(shí)驗(yàn)室,做出了一種針對(duì)這個(gè)疾病的疫苗,已經(jīng)證明它在實(shí)驗(yàn)室條件下能夠產(chǎn)生有效的抗體。但是他們不知道,如果應(yīng)用到實(shí)際生活中的大規(guī)模實(shí)驗(yàn),這個(gè)疫苗還會(huì)不會(huì)有效。所以當(dāng)時(shí)美國政府部門就決定要做實(shí)驗(yàn),這個(gè)時(shí)間大致在1954年。因?yàn)楫?dāng)時(shí)脊髓灰質(zhì)炎的患者主要是孩子,所以當(dāng)時(shí)的實(shí)驗(yàn)人群定為小學(xué)一二三年級(jí)的學(xué)生。怎么做實(shí)驗(yàn)才能夠真正說明疫苗是否有效呢?為了確保統(tǒng)計(jì)結(jié)果最終反映真實(shí)的因果關(guān)系,當(dāng)時(shí)提出了五套實(shí)驗(yàn)方案。

          第一套方案是,因?yàn)?953年之前是沒有這個(gè)疫苗的,所以就從1954年開始,給所有的一二三年級(jí)小學(xué)生接種疫苗,最后再來看一下,1954年的發(fā)病率,跟1953年相比,會(huì)不會(huì)有差別。這個(gè)方案是個(gè)辦法,但是它有問題,因?yàn)橹懊恳荒甑募顾杌屹|(zhì)炎發(fā)病率的差別比較大。比如說1951年全美可能有3萬名脊髓灰質(zhì)炎患者,1952年則有6萬名,而1953年又可能縮減到不足4萬名。這個(gè)脊髓灰質(zhì)炎每年發(fā)病率的波動(dòng)都比較大,萬一到時(shí)候?qū)嶒?yàn)結(jié)果是3萬名到4萬名之間,如何判斷這個(gè)結(jié)果是隨機(jī)變化的,還是疫苗發(fā)生了作用?

          第二個(gè)方案則提出要按照地區(qū)來做。比如,在紐約地區(qū),就給一二三年級(jí)小學(xué)生們?nèi)拷臃N疫苗,而在芝加哥地區(qū)的就全部不接種疫苗,然后來統(tǒng)計(jì),紐約和芝加哥這兩個(gè)地區(qū)的脊髓灰質(zhì)炎發(fā)病情況。這個(gè)方案后來發(fā)現(xiàn)也不行。因?yàn)榧顾杌屹|(zhì)炎本身就是傳染病,一個(gè)地區(qū)可能流行這個(gè)疾病了,而另外一個(gè)地區(qū)就可能沒流行,那么這兩個(gè)地區(qū)的數(shù)據(jù)看起來就會(huì)有差異,但是這不是疫苗的效果,不具有可比性。

          于是就有人提出了第三個(gè)方案。因?yàn)楫?dāng)時(shí)這個(gè)疫苗接種,誰也不知道有沒有副作用,因此是有一定風(fēng)險(xiǎn)的。所以這個(gè)方案就提出,讓接種疫苗的孩子們的父母來自行選擇。有的家長(zhǎng)選擇給孩子接種疫苗,有的就不選擇接種,這樣同一批孩子就會(huì)出現(xiàn)不同的對(duì)照。但是這么做,也有問題。因?yàn)楫?dāng)時(shí)人們已經(jīng)發(fā)現(xiàn),脊髓灰質(zhì)炎的患者一般來自于家境比較好的家庭。這是因?yàn)?,那些家庭?jīng)濟(jì)狀況比較差的家庭,因?yàn)樯顥l件差,衛(wèi)生條件不好,可能一個(gè)人很早就接觸過脊髓灰質(zhì)炎的病毒了,甚至很可能在剛剛出生的時(shí)候就接觸了脊髓灰質(zhì)炎的病毒,但是剛出生的嬰兒是有母體的免疫力的,嬰兒憑借母體的免疫力,接觸這個(gè)病毒之后能夠產(chǎn)生抗體,反而不會(huì)得病。當(dāng)時(shí)的這類數(shù)據(jù)情況已經(jīng)展現(xiàn)了這種現(xiàn)象。如果采用自愿接種的方式,那些經(jīng)濟(jì)狀況比較好的家庭,往往愿意讓自己的小孩去接種,而經(jīng)濟(jì)狀況不好的家庭由于經(jīng)費(fèi)原因,同時(shí)也知道自己這個(gè)階層染病率稍微低一些,他可能就不愿意接種了。這樣就造成了對(duì)實(shí)驗(yàn)結(jié)果的干擾,你無法判斷到底是疫苗有效還是經(jīng)濟(jì)原因?qū)е碌牟煌Y(jié)果。

          然后是第四個(gè)方案。有人提出,只讓二年級(jí)的學(xué)生接種,而一年級(jí)和三年級(jí)學(xué)生不接種。之后再比較接種的跟不接種的學(xué)生之間的區(qū)別,看他們的發(fā)病率會(huì)不會(huì)有差別。這個(gè)方案是當(dāng)時(shí)的一個(gè)脊髓灰質(zhì)炎防治委員會(huì)提出的方案。這個(gè)方案同樣行不通,第一,它同樣無法避開接種孩子家庭貧富差距導(dǎo)致的患病概率差異。第二,脊髓灰質(zhì)炎是一種傳染疾病,人群的年齡是對(duì)這種傳染有影響的,一、二、三年級(jí)的學(xué)生年齡層次有差別,可能就會(huì)導(dǎo)致各個(gè)年級(jí)學(xué)生得病概率的差異。此外這個(gè)方案還有第三個(gè)重大缺陷,那就是可能會(huì)對(duì)醫(yī)生形成心理上的誘導(dǎo)。如果按照這個(gè)方案執(zhí)行下去,醫(yī)生們就是知道的,一、三年學(xué)生沒有接種疫苗,而二年級(jí)同學(xué)中有部分同學(xué)接種了疫苗。當(dāng)時(shí)脊髓灰質(zhì)炎的診斷還不太容易,如果醫(yī)生已經(jīng)知道了這個(gè)疫苗接種方案,而且也提前知道這個(gè)疫苗在實(shí)驗(yàn)室階段是管用的,那么醫(yī)生在面對(duì)一年級(jí)學(xué)生時(shí),一旦這個(gè)疾病還無法確診,那么這個(gè)醫(yī)生就很可能根據(jù)“一年級(jí)學(xué)生沒有接種疫苗”“疫苗是有效的”這兩個(gè)提前的認(rèn)知,就直接診斷這名一年級(jí)學(xué)生得了脊髓灰質(zhì)炎。而且這種區(qū)別對(duì)待的方案,接種的學(xué)生本身心理也會(huì)受到影響的。

          當(dāng)時(shí)還有第五個(gè)方案,也就是最終執(zhí)行并被采納了調(diào)查結(jié)果的方案。這個(gè)方案具體來說,就是在征得學(xué)生家長(zhǎng)同意之后,仍舊會(huì)告訴家長(zhǎng):你即使同意接種疫苗,我給你家孩子接種的,也不一定是疫苗,而是一種看起來跟疫苗一模一樣的安慰劑,沒什么副作用也沒有什么效果。因?yàn)檫@個(gè)安慰劑跟疫苗.長(zhǎng)得一樣,所以醫(yī)生和學(xué)生都不知道到底接種的是疫苗還是普通的安慰劑,但是疫苗提供方是知道的,它對(duì)每一個(gè)藥品都加了編號(hào),因此疫苗提供方知道哪些是安慰劑,哪些是疫苗。通過這樣的方式,實(shí)驗(yàn)室實(shí)現(xiàn)了隨機(jī)的方式接種疫苗,而且無論家境好壞,這個(gè)接種疫苗都是隨機(jī)的。同時(shí)醫(yī)生們也不知道,到底是哪一些小孩接種了疫苗。這就規(guī)避了年齡、經(jīng)濟(jì)條件等各種擾動(dòng),有助于確定脊髓灰質(zhì)炎與疫苗之間真正的因果關(guān)系。

          1954年,這個(gè)實(shí)驗(yàn)大約有74萬名小學(xué)生參與。最終的實(shí)驗(yàn)結(jié)果是,如果接種疫苗,孩子罹患脊髓灰質(zhì)炎的概率大約是十萬分之28,如果不接種疫苗,患病概率大約是十萬分之77,二者相差一倍多。之后又經(jīng)過各種努力,脊髓灰質(zhì)炎疫苗在美國獲得了通過。

          許多科學(xué)結(jié)論、政策評(píng)價(jià)都依賴于因果分析而不是相關(guān)分析。統(tǒng)計(jì)學(xué)能夠幫助我們證明那些我們所需要的因果關(guān)系。很多時(shí)候,真正的因果關(guān)系,不能簡(jiǎn)單地建立在相關(guān)關(guān)系的基礎(chǔ)之上。還有很多科學(xué)問題,仍需要我們?nèi)グl(fā)現(xiàn)真正的因果關(guān)系,這正是統(tǒng)計(jì)學(xué)可以提供數(shù)據(jù)收集以及分析方案的地方,也是統(tǒng)計(jì)學(xué)的魅力所在。

          贊(0)
          分享到: 更多 (0)
          網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)