第一節 統計學中首要的三個詞
你已經知道統計學與分析事物有關。雖然數字在本章開頭用來代表事物,但統計學中首要的三個詞:母體、樣本、變數,能夠讓你更了解運用統計學所分析的事物。
母體
觀念:你所研究的群體總量。
範例:所有具有投票權的美國公民、去年在某間醫院中接受治療的所有病人、在某天當中瀏覽某個網站的所有人。
樣本
觀念:母體中被挑選出來作分析的部分。
範例:接受下次選舉意向調查的選民、被選出來填寫病人滿意度問卷的病人、從工廠生產線中挑出的100盒早餐穀片、在某天中瀏覽某個網頁的其中500人。
變數
觀念:將要運用統計學來分析的某項物品或人物特色。
範例:性別、某位選民的政黨傾向、住在某個地理區人民的家庭收入、圖書分類(精裝、貿易平裝版、大眾平裝版、教科書)、某個家庭中擁有的手機數量。
說明:所有的變數形成了分析的數據。雖然大家常說他們在分析資料,但精確地說,他們分析的其實是變數。
你必須將變數獨立出來,例如性別,以及這個變數對應某人的值,例如男性。觀察樣本當中特定對象的所有數值。例如一項調查可能同時包含了性別與年齡兩個變數。第一位觀察對象很可能是40歲的男性,第二位則是55歲的女性。在繪製表格時,通常會將某個變數的待分析數值放在同一欄。因此,有些人會將變數稱為「資料欄」。同樣的,有些人會將觀察對象稱為「資料列」。
第二節 參數與統計量
在你知道要分析的是什麼之後,或是用前述的詞彙來說,在你從母體或研究樣本中找出變數之後,就能夠定義你分析內容中的「參數」與「統計量」。
參數
觀念:母體當中描述一個變數(特徵)的數值量測值。
範例:所有願意在下次選舉中投票的選民比例,所有對接受的醫療照護感到滿意的病人比例,在某天當中某個網站所有訪客停留時間的平均值。
統計量
觀念:樣本當中描述一個變數(特徵)的數值量測值。
範例:願意在下次選舉中投票的樣本選民比例、對接受的醫療照護感到滿意的樣本病人比例、在某天某個網站樣本訪客停留時間的平均值。
說明:計算某個樣本的統計量是最常見的活動,因為在作決策時,要蒐集母體的資料是不切實際的作法。
第三節 統計學的分支
你可以運用參數或統計量來描述變數或是針對資料下結論。這兩種用途定義了統計學的兩個分支:「描述型統計」(descriptive statistics)與「推論統計(inferential statistics) 」。
描述型統計
觀念:著重在蒐集、總結、呈現一組資料的統計學分支。
範例:某地區市民的年齡平均值、所有統計學書籍的平均長度、訪客造訪一個網站的時間變化量。
說明:你應該最熟悉統計學的這個分支,因為日常生活當中的相關實例多到不勝枚舉。許多領域皆以描述型統計作為分析與討論的依據,例如證券交易、社會科學、政府機構、健康科學、職業運動等等。由於資料容易計算與取得,描述型的方式看似相當容易,但這種看來容易的方式並非全無缺點,本書會在第二章與第三章中針對這點進行說明。
推論統計
觀念:分析樣本資料以針對母體作出結論的統計學分支。
範例:針對1,246位女性樣本進行的調查,結果發現有45%的人認為朋友或家人能夠在購物時提供可信的建議;只有7%的人認為廣告能在購物時提供可信的建議。利用本書第六章第四節中提到的方式,你就能夠利用這些統計量來對所有的女性母體作出結論。
說明:在運用推論統計時,會從建立假設開始,接著檢視這些資料是否與假設一致。這種進一步的分析意味著推論統計方法很容易遭到誤用與誤解,許多推論統計也必須透過計算工具或程式才能完成(本書第六章至第九章提到了你最容易遇到的推論統計方法)。
第四節 資料來源
每次進行統計學分析時,都必須蒐集資料,也就是找出你要運用的資料來源。重要的資料來源包括了「公開資訊」、「實驗」、「調查」。
公開資訊
觀念:印刷品或電子資料,包含了在網站上找到的資料。第一手資料指的是個人或團體蒐集且出版的資料;第二手資料則是將第一手資料編纂整理而成的資料。
範例:許多美國的聯邦機構,包括了美國人口調查局,他們會把第一手資料公布在「www.fedstats.gov」網站上。個別產業團體或商業新聞網站通常都會在網站上,或是以書面的方式提供第二手資料,這些多半是彙編商業組織與政府機構的資料而來。
說明:在使用這些資料時,你必須考慮出版機構與資料是否有所偏頗,在發布資料時是否包含了所有必要且相關的變數。在使用網路上蒐集而來的資料時,特別需要注意這一點。
實驗
觀念:僅改變另一個或數個變數的值,並維持其他條件不變,以檢驗某個變數影響的研究方式。典型的實驗包含了實驗組與對照組。實驗組當中包含了接受實驗或治療的個人、物品。對照組則包含了未接受實驗或治療的個人、物品。
範例:藥廠透過實驗來判定某項新藥物是否有效。一群具有相同特徵的病患會被分為兩組。其中一組,亦即實驗組,會接受新藥的治療;另外一組,亦即對照組,則通常僅服用沒有療效的安慰劑。在一段時間之後,再比較兩組的統計數字。
說明:適當的實驗方式包括了「單盲實驗」與「雙盲實驗」。「單盲實驗」意味著僅有操作實驗的人員知道實驗組與對照組的差別。如果操作實驗者與受試者皆不知道誰是實驗組,誰是對照組,則這種實驗方式即稱為「雙盲實驗」。
在利用安慰劑進行實驗時,研究人員也必須將安慰劑效應納入考量,亦即對照組的受試者是否因為相信自己服用了有效的藥物,因而使病情好轉。
如果對照組好轉的程度與實驗組相同,研究人員就能判定安慰劑效應對兩組皆造成重要的影響。
調查
觀念:利用問卷或類似方式蒐集一群參與者回應的值。
範例:美國十年一次的書面人口普查、選舉的民調、網路即時投票或是「每日票選」。
說明:調查的方式包括「非正式調查」,亦即任何有意願者皆可參加,以及「特定目標調查」,亦即針對特定團體或個人進行的調查;或是「隨機抽樣的調查」。調查的類型會影響資料蒐集、運用、說明的方式。
第五節 抽樣概念
在前述的統計量定義中,你得知計算樣本的統計量是最常見的活動,因為蒐集母體資料通常過於不切實際。由於抽樣的方式相當常見,因此你必須了解母體當中組成分子的概念,以及說明如何採取樣本。
組織體
觀念:母體中所有組成分子的清單,樣本即從這些清單當中取出。
範例:選舉人名冊,市公所不動產紀錄、客戶或人資資料庫、索引目錄等。
說明:組織體會影響分析的結果。採用不同的組織體可能會造成不同的結果。因此你必須仔細確認組織體能夠完全代表一個母體;否則的話,以任何方式抽樣都會造成偏頗,分析這些樣本的結果也會不精確。
抽樣
觀念:從母體中選出一個樣本的過程。
範例:從每五位離開投票所的選舉人中找出一位進行訪談、從一副牌中隨機抽取一張牌、針對今天每十位造訪某網站的訪客進行調查。
說明:有些抽樣方式,例如網站上的「即時投票」,往往並非從健全的組織體當中抽樣。從健全組織體中抽樣的技巧,稱為「機率抽樣」。
機率抽樣
觀念:將選取每樣物件的機率納入考量的抽樣過程。機率抽樣能夠提升母體當中樣本的代表性。
範例:被選出來參加下次選舉意向調查的登記選民、被選出來填寫服務滿意度問卷的病患、從工廠生產線當中選出的100盒早餐穀片。
說明:你必須盡可能採用機率抽樣的方式,因為只有這種抽樣方式能夠讓你在搜集來的資料上運用推論統計的方式。相較之下,在每個單一事件發生機率不明時,若要以低成本的方式進行初步或實驗性質的研究,之後會再以嚴謹的方式分析時,則應採用非機率抽樣的方式。歡迎大眾自行來電投票,或是在網路上開放大眾填寫的問卷,皆屬於非機率抽樣。
簡單隨機抽樣
觀念:在機率抽樣的過程當中,母體中的每個人或每樣物件與其他人或其他物件被選中的機率相等。某個數量中的可能樣本被選中的機會,與另一個同樣數量中樣本被選中的機會相同。
範例:利用統計學的方式,例如亂數表,從洗過的一副牌中抽取一張牌。
說明:簡單隨機抽樣是其他隨機抽樣方式的基礎。在這個詞彙當中,隨機的意思必須特別說明。這個詞彙中的隨機指的是沒有重複的模式,意即沒有特定的順序,或是某種排列方式很可能或很不可能出現,和我們一般所謂的「意料之外」或「沒料想到」(如:意外的善意行為)的意思完全不同。
其他機率抽樣方式
觀念:在調查抽樣時,也會使用其他較複雜的抽樣方式。在分類樣本當中,組織體中的物件會先細分為數個次母體,或是數個階層,再從每個階層當中隨機抽樣。在一群樣本當中,組織體內的物件會先分為幾群,讓每一群都能代表整個母體,隨後進行隨機抽樣,接著再針對每群中選出的物件或樣本進行研究。
第六節 樣本選擇方式
在抽樣時,可以選擇重置或不重置選出的樣本。但大部分的調查抽樣都是採用不重置的方式。
重置抽樣
觀念:將選出物件重新放回原本的組織體當中,讓這個物件再被選中的機率維持不變的抽樣方式。
範例:從魚缸當中選取某些物件,每次選出後都會將該物件再放回去。
不重置抽樣
觀念:不將選出的物件放回原本的組織體當中的抽樣方式。使用這種方式時,每個物件僅會被選出一次。
範例:抽出樂透彩的號碼、在玩二十一點或其他撲克牌遊戲時從一副牌中抽出一張。
說明:使用不重置抽樣的方式時,每個物件僅會被選出一次。你應該選擇不重置抽樣的方式,而非重置抽樣的方式,因為大部分的統計學家皆認為前者較能抽出較具代表性的樣本。