2022年4月14日 星期四

為什麼期望值可以直接相加?

在高中機率中有一類求期望值的問題\( \renewcommand{\{}{\raise 2px{\lbrace}} \renewcommand{\}}{\raise 2px{\rbrace}} \),它們除了「正常的做法」之外,還有一個(也可能不止一個)「聰明的做法」。正常的做法相對來說複雜很多,甚至讓人望而卻步。而那個聰明的做法則是輕輕鬆鬆就把答案算出來,但是它似乎特別依賴直覺,看似有理,卻又說不清楚為什麼可以這樣做。下面先來看兩個例子。

§1  例子

【例一】擲兩顆骰子,求點數和的期望值。

兩顆骰子的點數和,可能出現的結果為 $2$, $3$, $4$, ..., $12$。正常的做法就是把這些結果發生的機率分別求出來,比如說叫做 $P_2$, $P_3$, ..., $P_{12}$,那我們要求的期望值就是 $$2P_2 + 3P_3 +\cdots + 12P_{12}$$這其實還不算太複雜,比如說要計算 $P_5$,那就看點數和等於 $5$ 有多少種方法,答案是四種:$1+4$, $2+3$, $3+2$, $4+1$,由於每一種可能發生的機率都是 $1/6 \times 1/6 = 1/36$,所以 $P_5 = 4/36$。又比如 $8$ 可以寫成 $2+6$, $3+5$, $4+4$, $5+3$, $6+2$,共五種方法,所以 $P_8$ 就是 $5/36$。像這樣,很容易求出 $P_2$ ~ $P_{12}$ 的值,再代入上面期望值的列式,即可求得答案為 $7$。但接下來,如果我們稍微把問題變難一點點:把兩顆骰子改成三顆,再使用同樣的方法就會變得很麻煩了。首先,三顆骰子的點數和,可能的結果為 $3$, $4$, $5$, ..., $18$,因此我們就有 $P_3$ ~ $P_{18}$ 要算,不止數量更多,而且要計算每個 $P_k$,我們需要知道三顆骰子加起來等於 $k$ 的方法數,也更花時間。這還只是三顆骰子的情形,如果再往上考慮四顆、五顆或更多,用這個方法真的會崩潰。

那麼,「聰明的做法」是怎麼樣呢?首先我們先看「擲一顆骰子的點數期望值」。擲一顆骰子,總共就六種可能:$1$, $2$, $3$, $4$, $5$, $6$。每一種可能發生的機率都是 $1/6$。因此期望值就是 $$\textstyle 1\cdot\frac{1}{6}+2\cdot\frac{1}{6}+\cdots+6\cdot\frac{1}{6} = \frac{7}{2}$$ 我們知道,所謂的「期望值」就是「平均」的概念,因此上面的結果告訴我們,擲一顆骰子平均來說會得到 $7/2$ 點。那擲兩顆骰子,平均來說點數和當然就是 $7/2+7/2 = 7$ 點,這正是「兩顆骰子點數和的期望值」!同樣的想法,擲三顆骰子,點數和的期望值應該就是 $3\times\frac{7}{2} = \frac{21}{2}$、四顆骰子就是 $4\times\frac{7}{2}=14$,$n$ 顆骰子就是 $\frac{7n}{2}$,就這麼簡單,可喜可賀!可喜可賀!......但是,等等,為什麼可以這樣算呢?雖然聽起來很合理,可是它是根據哪條公式?哪個定理?以兩顆骰子的例子來說,如果我們試著從「正常做法」的列式出發,也不太容易看出怎麼把它拆成兩個「一顆骰子的期望值」相加(並不是不可能,只是不太容易,我們之後也不會往這方向去想)。所以怎麼辦?除了「感覺是這樣沒錯」,該怎麼解釋清楚?

【例二】箱中有 5 個不同物件,每次隨機取 1 物後放回,連續取 3 次,請問共取得「相異物件數」的期望值為何。

所謂「共取得相異物件數」,就是總共拿到多少種不同的東西。因為每次取物之後會放回去,所以可能會重複拿到同一個物件。最極端的情形就是三次都拿到同一個東西,相異物件數就是 1,也可能三次取物拿到兩種不同的東西,那相異物件數就是 2,如果三次都拿到不同的東西,相異物件數就是 3。因此正常的做法,就是把相異物件數等於 1, 2, 3 的機率分別求出來,我們還是用 $P_1$, $P_2$, $P_3$ 來表示,這樣,期望值就是 $1\cdot P_1 +2\cdot P_2 + 3\cdot P_3$。由於題目的數字("5"物,取"3")並不大,這個做法也還不算太困難,有興趣的人可以自己試試看,可以練習一下排列組合。如果沒興趣就請直接相信我吧,算出來答案是 $61/25$。不過,跟前面的例子一樣,只要題目裡的數字稍微再放大一些,用這個正常做法就會變得痛苦很多。舉例來說,即使仍然考慮 5 個物件,但如果取物次數也增加到 5 次,相異物件數就有 1, 2, 3, 4, 5 五種可能,而且要計算這些可能發生的機率也困難得多。

現在來看「聰明的做法」。比起上面擲骰子的問題,這個可能比較難想到。關鍵就是先看:「針對某一個物件,完成三次取物之後,它被取到的機率為何?」要算此機率,最簡單的做法是用 1 去減掉「沒被取到的機率」。所謂沒被取到,也就是說三次取物,每次都是取到其他四個東西,所以機率等於 $(4/5)^3$。因此,某物件「有被取到的機率」是 $1-(4/5)^3$。現在,每個物件的地位其實都是一樣的,所以每個物件在完成三次取物之後,被取到的機率都是 $1-(4/5)^3$。而總共有五個物件,因此平均來說應該有 $5\cdot[1-(4/5)^3]=61/25$ 個物件會被取到,這正是我們要求的期望值!這做法不但比上面的「正常算法」簡單得多,而且不管題目裡面的數字怎麼改,基本上都不會增加解題的困難度。我們不妨直接看一般的情形:「假設箱中有 $n$ 個物件,取 $m$ 次,同樣是每次取物都放回,問共取得相異物件數的期望值。」一樣,先針對單一物件,看它最後被取到的機率是多少,答案是 $1-(\frac{n-1}{n})^m$。然後,由於每個物件被取到的機率都是這麼大,而總共有 $n$ 個物件,因此平均來說會取到 $n[1-(\frac{n-1}{n})^m]$ 個物件,這就是答案。這做法非常漂亮,但是,還是同樣的問題:為什麼可以這樣算?我們運用了「平均」的想法,巧妙地避開了繁複的計算,但這樣的技巧在高中課程裡並無法找到明確的解釋。那麼,它的合法性在哪?

如果你看了上面兩個聰明的解法,覺得「太棒了!我喜歡這種直覺式的解法!」恭喜你,你是一個聰明而且大膽的人,有成為科學家的潛力。而如果比起高興,你更多的是感到困惑,甚至害怕,覺得「三小啦為什麼可以這樣做?」那恭喜你,你很謹慎,有成為數學家的潛質。當然,要成為數學家,不輕易相信直覺還不夠,接下來還得完成一個簡單的任務,就是「給出嚴謹的說法」。是吧?畢竟人家真的把答案算出來了,總不能只是丟下一句「你亂講」然後就瀟灑地走開。如果上面那種直覺式的做法總是可以得到正確答案,那它就是正確的,只是這個「正確」背後的機制是什麼?能否講得更清楚?

§2  一些基本概念

事實上,前面提到的聰明解法,都不是什麼特殊技法。它們都是很正常而且王道的做法。然而要解釋它們,就必須先了解「期望值的可加性」這個東西。這是期望值的一個基本性質,但在高中課程中一般並不會提到,或者即使有老師不小心(或故意)使用了它(比如我當年的高中老師...),也很少會進一步說明它的來龍去脈,只在孩子臉上留下一臉迷茫。其實它並不深奧,但在高中課程中就是少了一點點「東西」,使得要說明它變得有點麻煩。至於到底少什麼,根據不同的教材跟不同的老師也會有所不同。總之,為了確保讀者沒有遺漏任何需要的知識,下面我們先花一點時間把機率中的一些基本概念走一次。(註:「期望值的可加性」這中文是我隨便寫的,或許說「期望值的加性」即可。)

首先,機率中常常考慮的像是擲硬幣、擲骰子、箱中取球之類的這些行為,可稱為「隨機試驗」。我們可以花時間去探討「隨機試驗」應該含有哪些要素與規範,但實際上這並不是很有意義,這裡就讓我們粗略地把它想成「有不止一種可能結果的實驗」就好。把一個隨機試驗的「所有可能結果」收集起來,組成的集合稱為「樣本空間」。比如擲一枚硬幣,可能的結果有正面跟反面,因此它的樣本空間就是 $\{\raise 1px{正面},\raise 1px{反面}\}$。擲一顆骰子,樣本空間就是 $\{1,2,3,4,5,6\}$。當然我們也可以更形象地用 $\{$,,,,,$\}$ 表示,但反正寫 $\{1,2,3,4,5,6\}$ 也能明白(而且打字比較方便)。相同的隨機試驗,也可以根據自己所關心的重點,設定不同的樣本空間。比如說同樣是擲一顆骰子,如果只在乎「出現偶數點」或是「出現奇數點」,那將樣本空間設定為 $\{\raise 1px{偶數}, \raise 1px{奇數}\}$ 也無妨。事實上,「隨機試驗」只是問題發起的動機,它沒有(也無需)明確的數學定義。在探討機率問題時,至少就純數學的部分來說,真正要說清楚的「第一件事」就是樣本空間是誰。

樣本空間也可能包含無窮多個元素。比如「在一張紙上任選一點」,這是一個隨機試驗,其樣本空間就是這張紙的所有點組成的集合,是一個無限集。但這種無限集的樣本空間,如果要嚴格討論起來,會產生一些新的議題,讓本文變得難以收拾。為了簡化說明,接下來我們就只考慮樣本空間有限的情形就好。以下我們不妨抽象地假設有一個隨機試驗,樣本空間為 $\{R_1,R_2,\ldots,R_n\}$,也就是說它總共有 $n$ 個可能的結果。接著,需要說清楚的「第二件事」,就是每個結果 $R_k$ 發生的機率。讓我們把 $R_k$ ($k=1,2,\ldots,n$) 發生的機率記作 $P(R_k)$。$P(R_k)$ 需要滿足兩個條件:

  1.   每個 $P(R_k)$ 都 $\ge 0$
  2.   $P(R_1)+P(R_2)+\cdots+P(P_n) = 1$

原則上這些 $P(R_k)$ 也是先給好的。現實中,它們的值往往來自於經驗與觀察,也可能是根據科學原理做出的推測。比如如果老王的太太說「老王週末有七成的機率會出門,三成的機率待在家耍廢」,這個「七成」與「三成」比較可能就是從經驗得到。還有一種理想化的情形很常用,就是直接假定「每個結果發生的機率均等」。以上面 $P(R_1)$ ~ $P(R_n)$ 來說,就是假設每個 $P(R_k)$ 都是 $1/n$,這種情況(或者說不知道是不是這種情況但決定使用這種假設)稱為「古典機率」。高中機率中常考慮的像是擲硬幣(假設正面反面機率都是 1/2)、擲骰子(假設每個點數出現的機率都是 1/6)等,都是古典機率的例子。比較嚴謹一點的問題陳述,就會加上「公正的」硬幣,「均勻的」骰子之類的形容詞,就是在強調我們使用了這個假設。對於本文所要講述的內容,考慮「古典」的情形並不會帶來什麼特別的好處(儘管我會常常舉古典的例子),所以我們也就不需要特別假設每個 $P(R_k)$ 都等於 $1/n$。

接下來,「樣本空間的子集合」我們稱為「事件」。為什麼呢?以擲一顆骰子為例,我們可以考慮「出現偶數點」的事件,抽象一點說就變成「點數落在 $\{2,4,6\}$ 這個子集合」的事件,再更偷懶一點,乾脆就說「$\{2,4,6\}$」這個事件。總之,為了方便,「事件」就直接抽象化成「樣本空間的子集合」。以擲骰子來說,任何 $\{1,2,3,4,5,6\}$ 的子集,比如 $\{1,5\}$, $\{1,2,4,5,6\}$, 或像是單一元素集 $\{2\}$ 都是可以考慮的事件。邏輯上空集合也是一個事件,但這比較偏向是數學上的方便設定而已,對於現實中真正有意思的問題這並不重要。

我們前面說,樣本空間中的元素發生的機率要先給好,比如老王待在家的機率是「三成」,骰子擲出點數 5 的機率是「$1/6$」,這些都不用算。不過,如果是「事件」發生的機率,可能就需要計算。事實上,所有「請問 xxx 的機率是多少」這樣的考題,這個 xxx 都是指一個事件。比如我們可以問像是「擲一顆骰子,點數小於 3 的機率是多少?」也就是說「結果落在 $\{1,2\}$ 這個事件的機率是多少?」把它記作 $P(\{1,2\})$。當然我們一眼就可以看出 $P(\{1,2\})=1/3$,因為 $\{1,2\}$ 佔了整個樣本空間 $\{1,2,3,4,5,6\}$ 的 $1/3$。不過,注意這個用「佔比」來決定機率的方式,也是古典機率獨有的特性:$$P(\mbox{某事件 }A) = \frac{\mbox{構成 } A \mbox{ 的元素數目}}{\mbox{樣本空間的元素總數}}$$一般考試的問題肯定不會像上面的例子那麼廢,通常都會涉及排列組合,每一種可能的結果都對應到排列組合的一種「方法」,因此就變成我們常說的$$機率 = \frac{事件發生的方法數}{總方法數}$$ 表面上在問機率,實際上都是在幫你複習排列組合,其用心之險惡良苦,大家應該都深有體悟。

對於我們的抽象樣本空間 $\{R_1,\ldots,R_n\}$,由於每個 $P(R_k)$ 並不一定相同,這時我們如果要問一個事件的機率,就不能單看事件裡有多少元素,而是要把事件中的每個元素發生的機率加起來。比如 $P(\{R_1,R_2\})=P(R_1)+P(R_2)$、$P(\{R_3,R_4,R_5\})=P(R_3)+P(R_4)+P(R_5)$,等等。當然,如果某個事件只包含單一元素,那它的機率就是那個元素的機率:$P(\{R_k\})=P(R_k)$。

接下來,讓我們假設我們今天進行的隨機試驗,每個結果 $R_k$ 都對應了一個「我們感興趣的數字」$a_k$。這個「感興趣的數字」在實際的應用上會代表什麼有各式各樣的可能,不過最簡單、最容易想像的例子就是賭博的「獎金」。也就是說當試驗(賭局)的結果為 $R_k$,我們就獲得 $a_k$ 元。我們可以考慮 $a_k$ 有正有負,如果是負的,就想成是要賠多少錢。有了獎金規則之後,我們自然會想知道「平均來說,每次試驗我們會獲得多少錢(或賠多少)」,也就是獎金的「期望值」。我們將其定義為 $$a_1 \cdot P(R_1)+a_2\cdot P(R_2)+\cdots+a_n\cdot P(R_n)$$用白話說,就是

「期望值 = 把每個結果對應的獎金乘上此結果發生的機率,再通通加起來」

這個「求平均」的想法應該蠻自然的。不過,它似乎跟一般高中課本教的期望值算法(也就是我們刻意稱為「正常算法」的那個方法)有點不一樣,不知道讀者是否能看出其中的差異?事實上它們是在算同一個東西,如果一時想不清楚沒關係,請先忘掉那個「正常算法」,我們之後會說明,但這裡我們的任務還沒走完。

接下來要說的是,我們前面給的期望值定義,裡面有件事有點太白話了,就是「感興趣的數字」$a_k$ 這個東西。事實上白話並沒有什麼錯,但如果無法抽象理解它的本質的話,可能會不方便運用到各式各樣的問題,也比較難進一步深化我們的思考。現在我們來看看它到底是個什麼樣的數學物件。注意到,這個感興趣的數字,它其實並不是一個固定的數字,而是「會隨著隨機試驗的結果而改變的數字」,因此我們將其稱為「隨機變數」。這個名稱聽起來比較動感一點。如果從另一個角度來看,你想要描述它,其實就只是要講清楚「每個 $R_k$ 對應到的 $a_k$ 是多少」,所以說…沒錯,就是一個函數關係。從抽象的角度來看,它就是一個「定義在樣本空間上的函數」。這是一個非常重要的概念,讓我們慎重地將它寫下來:

隨機變數 = 定義在樣本空間上的函數

再回到期望值。我們上面說「對於我們感興趣的數字,我們可以求它的期望值。」現在我們就可以改成更有學問的說法:「對於一個隨機變數,我們可以求它的期望值。」任何「請問xxxx的期望值」這樣的問題,這個xxxx必定是在描述一個隨機變數。如果把上面那個「$R_k$ 對應到 $a_k$」的隨機變數記作 $X$(也就是說 $X$ 是樣本空間 $\{R_1,...,R_n\}$ 上的函數,$X(R_k)=a_k$),並把它的期望值記作 $E[X]$,則按照前面說的期望值的定義就是 \begin{equation}\label{D1} E[X]=a_1\cdot P(R_1)+\cdots +a_n\cdot P(R_n)\tag{$\mbox{D1}$} \end{equation}

這裡我們談一下記號。由於歷史發展的原因,隨機變數常常會先選用大寫 $X$ 或 $Y$ 之類的符號,而不是像一般談到函數時習慣用 $f,g$ 之類的。但這當然不是什麼重要的守則。你今天想用其他的符號,不管是 $f,g$ 或是 $\alpha,\beta$ 什麼的都可以,講清楚就好。另外,期望值 $E[X]$ 中的方括號也常常用圓括號 $E(X)$,兩派都很多,也有人喜歡把 $E$ 寫得比較 fancy,像 $\mathbb{E}[X]$,高興就好。

最後舉一個簡單的例子來把這一段收尾。假設你跟小美賭博,擲一枚硬幣,若出現正面,小美要給你 10 元,若出現反面,你只要給小美 8 元(對,小美就是佛心)。這樣,你就可以用以下的隨機變數來描述你的輸贏情形:$$X(正面) = 10,\quad X(反面)=-8$$注意到這裡 $X$ 就是一個定義在樣本空間 $\{正面,反面\}$ 上的函數。由於正面與反面發生的機率都是 1/2,所以 $E[X]=10\cdot\frac{1}{2}+(-8)\cdot\frac{1}{2}=1$。也就是說,平均來說你每玩一次遊戲可以賺到 1 塊錢。

到此我們的「基本觀念」就解說完了。下面我們就來看看「期望值的可加性」到底是什麼。

§3  期望值的可加性

上面我們舉了一個擲硬幣的例子,並考慮以下的隨機變數:$$X(正面)=10,\quad X(反面)=-8$$我們說這描述了你與小美的賭局規則,然後求出 $E[X]=1$。現在我們再假設,你「同時」也跟其他人賭,但可能採用不同的規則(也不排斥使用相同的規則)。比如小明跟你約定出現正面的話你要給他 $6$ 元,出現反面他會給你 $5$ 元。這樣,我們又可以用另一個隨機變數來描述這個規則,比如叫做 $Y$:$$Y(正面)=-6,\quad Y(反面)=5$$同樣可以求期望值:$$\textstyle E[Y]=-6\cdot\frac{1}{2}+5\cdot\frac{1}{2}=-\frac{1}{2}$$現在注意,我們只需要進行「一次」隨機試驗(擲硬幣一次),就能同時考慮「多個」隨機變數(同時跟多人對賭 $\Rightarrow$ 多種獎金規則)。如果我們真的這樣做,那麼,我們很自然地會考慮「跟所有的對手結算之後,總和的獲利」是多少。以上面的例子來說,只有兩筆獎金 $X,Y$,總和獲利就是 $X+Y$。若出現正面,你的獲利是$$(X+Y)(正面)=10-6=4$$若出現反面,則為$$(X+Y)(反面)=-8+5=-3$$注意,$X+Y$ 仍然是樣本空間 $\{正面,反面\}$ 上的隨機變數,它只是把兩筆獎金加起來。然後,我們當然也可以算這個「總和隨機變數」的期望值:$$E[X+Y]= \textstyle (X+Y)(正面)\cdot\frac{1}{2}+(X+Y)(反面)\cdot\frac{1}{2}$$如果我們把 $X+Y$ 綁起來看成「一個隨機變數」,直接代入 $(X+Y)(正面)=4$ 以及 $(X+Y)(反面)=-3$,可求出答案為 $1/2$。但另一方面,由於 $(X+Y)(正面)$ 其實就是 $X(正面)+Y(正面)$,而 $(X+Y)(反面)$ 就是 $X(反面)+Y(反面)$,如果將這個拆解代入上式,立刻可看出 $E[X+Y]=E[X]+E[Y]$,同樣可求得答案是 $1/2$。這個 $E[X+Y]=E[X]+E[Y]$,就是「期望值的可加性」!

如上所示,「期望值的可加性」指的是

當「同一個」樣本空間上,有「多個」隨機變數,比如 $X_1,X_2,\ldots,X_m$,則我們有 $E[X_1+\cdots+X_m] = E[X_1]+\cdots+E[X_m]$。

前面的例子只考慮兩個隨機變數 $X,Y$,樣本空間只有兩個元素:「正面」跟「反面」,而且還是古典機率:$P(正面)=P(反面)=1/2$。但對於一般的情形,證明其實幾乎一樣,近乎廢話,讀者可以稍微想一下,這裡就不再贅述。事實上,不難看出我們可以把 $E[X+Y]$ 進一步推廣到 $$E[aX+bY]=aE[X]+bE[Y]$$其中 $a,b$ 是任意的倍數。比如 $E[2X+5Y]=2E[X]+5E[Y]$。這樣的性質對於更多隨機變數也沒問題,比如 $E[1.3X-2.2Y+5Z]=1.3E[X]-2.2E[Y]+5E[Z]$。這稱為「線性」,或更完整地說:「期望值是隨機變數的線性函數」。「可加性」只是「線性」的一部分。

再補充一個特殊情形,就是 $E[常數]=常數$,比如 $E[3]=3$,$E[-\pi]=-\pi$。這是什麼意思呢?這裡 $E[常數]$ 中的「常數」要理解為「常數函數」,就是說我們所考慮的隨機變數取值是固定的。比如說,無論你骰子擲出幾點,阿華都會給你 5 元(可能他就是想看你擲骰子的英姿而已),那對應的隨機變數就是「永遠等於 5」的這個函數,所以直接寫 5 就好了。而獎金的期望值就是 $E[5]=5$,就這麼無聊。根據上面說的線性關係,可以推得我們也有 $E[aX+b]=aE[X]+b$ 這樣的公式。

最後,我們來看看,我們所說的期望值的定義,跟解題時常用的「正常算法」,它們之間到底是什麼關係。這用一個簡單的例子來看就會很清楚。假設某樣本空間包含 6 個元素:$\{R_1,R_2,R_3,R_4,R_5,R_6\}$,並考慮如下獎金規則:若結果為 $R_1$ 或 $R_2$,得 $a$ 元,若結果為 $R_3$, $R_4$, $R_5$,得 $b$ 元,而若結果為 $R_6$,得 $c$ 元。用隨機變數 $X$ 表示這個獎金,則按定義,它的期望值為$$E[X] = aP(R_1)+aP(R_2)+bP(R_3)+bP(R_4)+b P(R_5)+c P(R_6)$$這時注意到,由於有些結果的獎金一樣,可以合併在一起。比如前兩項獎金都等於 $a$,可以合寫成 $a(P(R_1)+P(R_2))$。注意到 $P(R_1)+P(R_2) = P(\{R_1,R_2\})$,這其實就是獎金 $X=a$ 發生的機率,因此我們又可自然地將其記成 $P(X=a)$。所以前兩項合起來是 $a P(X=a)$。同樣,把第三項、第四項跟第五項合併,可以寫成 $b P(X=b)$。然後最後一項,「$R_6$」恰好就是「$X=c$」,因此可寫成 $c P(X=c)$。全部合起來看,就得到期望值等於 $$a P(X=a)+b P(X=b)+c P(X=c)$$這就是所謂的「正常算法」。一般地,如果某個隨機變數 $X$ 的所有可能取值為 $a_1,\ldots,a_m$,則它的期望值為 \begin{equation}\label{D2} a_1 P(X=a_1)+a_2 P(X=a_2)+\cdots+a_m P(X=a_m)\tag{$\mbox{D2}$} \end{equation} 用白話說,就是

「期望值 = 把每個獎金乘上獲得此獎金的機率,再通通加起來」

所以,所謂的正常做法只是把「定義」裡相同獎金的項合併計算。然而,就是這樣一個「化簡」,卻使得期望值的可加性變得比較神祕。因為 \eqref{D2} 完全針對「目標隨機變數」$X$ 來列式。如果今天關心的隨機變數不止一個,用這個算法就會把它們糾纏在一起。舉個例子:假設 $X,Y$ 是相同樣本空間上的兩個隨機變數,其中 $X$ 的可能取值為 $1,2$,$Y$ 的可能取值為 $3,4$,則 $X+Y$ 的可能取值為 $4,5,6$。使用 \eqref{D2},得到 \begin{align*} &E[X]=1\cdot P(X=1)+2\cdot P(X=2)\\[4pt] &E[Y] = 3\cdot P(Y=3) +4\cdot P(Y=4)\\[4pt] &E[X+Y] = 4\cdot P(X+Y=4)+ 5\cdot P(X+Y=5) + 6\cdot P(X+Y=6) \end{align*} 為什麼 $E[X+Y]=E[X]+E[Y]$?它變得沒那麼顯然。倒也不是說不能從這個地方開始去證明它,只是就麻煩一點點,這裡我們就不去費這個心了。

最後,為了避免誤解,需要說明一下,我們為期望值下了一個定義,也就是 \eqref{D1},並用它推導出「正常做法」,也就是 \eqref{D2}。然而,事實上這也只是一種選擇。邏輯上來說,它們倆選誰當定義都可以,畢竟它們就是在算同一個東西。\eqref{D2} 本身的想法就很自然,而且把 $P(X=a_k)$ 直接理解為「獎金等於 $a_k$ 的機率」,完全不需要樣本空間與隨機變數的概念就能懂(當然,這些概念並沒有消失,只是無需明確注意到它們)。這優點使得它在教學上更為直接,也因此被許多高中教材所採用。事實上,有些大學教科書也是用 \eqref{D2} 做為定義,不過反正這樣一來要付出的代價就是可加性變得比較難證明。有些應用導向的書籍就乾脆不證明直接請讀者接受,使得一個很單純的東西就這樣變成一個迷,而高中課程則是選擇直接把期望值的可加性刪去。

好了,那我們的解說就到此為止……什麼?你說第一節裡提到的那些「聰明的做法」?嗯嗯……我想該有的知識都有了,就交給讀者自己想想看怎麼去解釋它們吧。


























開玩笑的啦 😘,不過在繼續看下去之前,讀者還是可以先試試看能不能自己破解。想不清楚也不用灰心,畢竟理論與實踐本來就是兩回事(明明覺得課本都讀懂了,看到題目腦袋還是一片空白)。

§4  解答與更多例子

現在就讓我們來看看,第一節裡面提到的兩個「聰明的解法」如何使用期望值的可加性來解釋。

【例一】擲兩顆骰子,求點數和的期望值。

【答】不妨把兩顆骰子做個編號,比如稱為「第一顆」與「第二顆」,然後用數對 $(a,b)$ 表示「第一顆」骰子擲出 $a$ 點,「第二顆」骰子擲出 $b$ 點的情形。這樣,樣本空間就是 $$\begin{align*}\{&(1,1),(1,2),...,(1,6),\\ & (2,1), (2,2),..., (2,6),\\ &\qquad\qquad\vdots\\ & (6,1), (6,2),..., (6,6) \}\end{align*}$$總共 36 種可能。用隨機變數 $X$ 表示「第一顆骰子」的值,用 $Y$ 表示「第二顆骰子」的值。也就是說 $X(a,b)=a$, $Y(a,b)=b$。注意,$X,Y$ 都是定義在上述的樣本空間上,也就是說它們背後的隨機試驗都是「擲兩顆骰子」,只不過它們各自只關心其中一顆骰子的值,對於另一顆的值則完全不在意。而「兩顆骰子的點數和」,就是 $X+Y$。由於事件「$X=1$」(也就是第一顆骰子擲出 $1$)包含了 $(1,1),(1,2),...,(1,6)$ 這六種可能,佔了全部的 1/6,所以 $P(X=1)=1/6$,跟只擲一顆骰子沒兩樣。(這裡我們自然還是使用古典機率假設,就是 36 種可能的每一種出現的機率都一樣,所以可以用「佔比」來計算事件的機率。)類似地,$P(X=2)$, $P(X=3)$,... , $P(X=6)$ 都等於 1/6。所以 $$\textstyle E[X]=1\cdot\frac{1}{6}+2\cdot\frac{1}{6}+\cdots+6\cdot\frac{1}{6}=\frac{7}{2}$$這個算式完全跟「擲一顆骰子的點數期望值」一樣,只是在這裡,我們事實上是將它理解為「擲兩顆骰子,但只看其中一顆的期望值。」同樣,$E[Y]$ 也等於 $7/2$,這是只看另外一顆骰子的期望值。而我們想問的「兩顆骰子點數和的期望值」正是 $E[X+Y]$。根據「期望值的可加性」,得到 $E[X+Y]=E[X]+E[Y]=7$。

理解了上面的論述以後,如何推廣到 $n$ 顆骰子的情形,我想應該無需多言了。

【例二】箱中有 5 個不同物件,每次隨機取 1 物後放回,連續取 3 次,請問共取得「相異物件數」的期望值為何。

【答】讓我們把 5 個物件稱為 $A_1,A_2,A_3,A_4,A_5$。把三次取物的結果按順序寫成一個三元組 $(A_\alpha,A_\beta,A_\gamma)$,比如說 $(A_1,A_4,A_2)$ 表示第一次拿到 $A_1$, 第二次拿到 $A_4$, 第三次拿到 $A_2$,$(A_3,A_5,A_3)$ 表示第一次拿到 $A_3$, 第二次拿到 $A_5$, 第三次又拿到 $A_3$,像這樣。樣本空間就是所有的 $(A_\alpha,A_\beta,A_\gamma)$ 組成的集合,其中 $\alpha,\beta,\gamma$ 可為 1 ~ 5 的任何一個數(所以總共有 $5\times 5\times 5=125$ 種可能)。現在用 $X$ 表示「相異物件數」,比如 $X(A_1,A_4,A_2)=3$,$X(A_3,A_5,A_3)=2$,$X(A_1,A_1,A_1)=1$。我們想要求的就是 $E[X]$。這裡只有一個隨機變數 $X$,為了使用「期望值的可加性」,需要適當地將 $X$ 拆成其他更簡單的隨機變數相加。對應我們在第一節中所給的「聰明的做法」,其實就是把 $X$ 分成五個隨機變數 $X_1$ ~ $X_5$,其中 $X_k$ 是用來「指示」$A_k$ 有沒有被取到:$X_k=1$ 表示有取到,$X_k=0$ 表示沒取代。比如說 $X_2(A_1,A_2,A_3)=1$,$X_2(A_3,A_4,A_5)=0$。請注意,我們只看「有」或「沒有」,不計算取到的次數。如果同一物取到兩次以上,還是算 1,比如 $X_3(A_2,A_3,A_3)=1$,$X_5(A_5,A_5,A_5)=1$。這樣,可以看出$$X=X_1+X_2+X_3+X_4+X_5$$ 這個拆解是整件事的核心,請確定自己完全理解。有了它之後,我們需要算的東西就簡化成 $E[X_k]$ ($k=1,2,3,4,5$)。對此,不妨使用「正常做法」。由於 $X_k$ 的取值只有 $0$ 與 $1$,因此$$E[X_k]=0\cdot P(X_k=0)+1\cdot P(X_k=1)$$前面 $0\cdot P(X_k=0)$ 等於 $0$,不用算,後面 $1\cdot P(X_k=1)= P(X_k=1)$,這正是「$A_k$ 有被取到的機率」。這東西怎麼算我們已經講過了,它的答案是 $1-(4/5)^3$。最後,由於每個 $E[X_k]$ 都等於 $1-(4/5)^3$,因此得到 $$E[X]=E[X_1]+E[X_2]+\cdots+E[X_5]=5\cdot\left[1-(4/5)^3\right]=61/25$$

如何把上面的論述推廣到一般「$n$ 個物件,取 $m$ 次」的情形也是顯然的,我們就略去了。


以上就是兩個「聰明的做法」的嚴謹版。一切都很美好,是吧?不過,話說回來,是否一定要像上面那樣把所有的東西(樣本空間是誰、考慮哪些隨機變數)都講得清清楚楚,還是像第一節中那樣使用直覺式的論述就好?這就取決於你的品味(如果是考試,那就只好取決於閱卷老師的品味)。經歷過大學數學系的折磨訓練還沒死,並因此對「嚴謹數學」產生信仰的人(也就是俗稱的斯德哥爾摩症候群),會偏向應該把所有的東西都講清楚,而且可能認為不這樣做是一種罪。但除了這群特異人士之外,其實很少有人這麼做,通常都是直覺行事。本文的目的只是解惑,沒有宣揚「該怎麼做」的意思。其實「很嚴謹」跟「很直覺」都有各自的問題,前者沒效率,後者(思慮不周時)容易胡說八道。最好就是兩種都會,平常能自由自在地使用直覺,但在不那麼有把握時,也能好好地把每個東西寫清楚進行確認。(知道法律的中心在哪,才能遊走在法律的邊緣而不犯法。)

最後再分享三個有趣的例子(接續第一節的【例一】與【例二】,就稱為【例三】、【例四】、【例五】)。

【例三】這個 blog 原本就有一篇文章使用了「期望值的可加性」來解決問題,也就是〈為什麼取後放回跟取後不放回的期望值一樣?〉這就是我們的第三個例子。

接下來兩個問題可能比較困難,最後有提示。

【例四】問題:「箱中有3紅球,4白球,每次隨機取一球,取後不放回,直到取完紅球。請問取球數的期望值。」這裡"3"紅球"4"白球也是比較小的數字,使用正常做法也還不至於太複雜。但我們的挑戰當然是請你想出「聰明的做法」,看看能不能利用「平均」的直覺推出答案,或使用「期望值的可加性」給出嚴謹的版本。如果能做到,推廣到一般「m 紅球,n 白球」的情形只是舉手之勞而已。另外,這個問題有時會以下面這個完全不同的樣貌出現:「袋中有六個球,分別印有 1、2、3、...、6 等號碼,今自袋中隨機取出三個球,每球被取出的機會均等,問三球中「最大數字」的期望值為何?」乍看之下跟上面「紅白球」是完全不同的問題,其實......

【例五】這是在 ptt Math 版看到的問題,很有趣:「魷魚遊戲第五關玻璃橋,到達終點總共要走18步,而每一步都要在兩片玻璃中二選一,選對了就是強化玻璃,選錯了就掉下去。假設選對選錯的機率都是二分之一,選手總共20位,每位選手都有超凡記憶力,都有辦法記得自己前面的人經過哪些玻璃,不會犯相同錯誤。問最後成功通關的人數期望值為何。」一樣,想辦法找到聰明的做法。然後,試著推廣到一般「m塊玻璃,n位選手」的情形。

下面是提示。

首先關於【例四】,這個網頁有討論串 (網頁如果壞了,希望有好心人可以告訴我),裡面就有直覺的做法。另外,六顆球的問題可看這裡(PTT數學版),在下面的推文裡,網友 XII 給了一個很短的列式,完全沒在跟你543的。

至於【例五】,原始問題的連結在這裡,下面第一個推文 emptie 大一行就解決了(能夠一行解決,本身就是一個提示?)。六樓 silvermare 的推文也提示了嚴謹的說法該怎麼設隨機變數。接下來......

謎之聲:如果只有一個選手要通過3塊玻璃,會怎麼樣呢?

4 則留言:

  1. 謝謝筆者的清楚解說!能夠清楚的判斷出什麼情況下能夠運用期望值相加的特性和原理了

    回覆刪除
  2. 請問在【例五】,如果死人的期望人數大於參賽人數,比如謎之聲提到的一人三塊玻璃,那還可以利用期望值的可加性處理嗎?

    回覆刪除
    回覆
    1. (修改一下原本的留言)死亡人數的期望值是不可能大於參賽人數的,謎之聲的問題就是在提示某種情況下原本的計算會需要修正。還是可以用期望值的可加性處理,只是有些「步」死亡人數的期望值就不是1/2這麼簡單。(事實上,就是「步數」超過「人數」時需要修正。比如說1人要走3步,那只有第1步死亡人數期望值是1/2,第2步跟第3步的期望值就不是1/2)

      刪除