枝微末節: 為什麼期望值可以直接相加？

§例子

有一種求期望值的問題$ \renewcommand{\{}{\raise 2px{\lbrace}} \renewcommand{\}}{\raise 2px{\rbrace}} $，它們有兩種做法，一種我們稱之為正常做法，另一種我們稱為異常聰明做法。正常的做法非常麻煩，而聰明的做法則輕輕鬆鬆就可以把答案算出來，但它似乎特別依賴直覺…。下面我們先看兩個例子。

【例一】擲兩顆骰子，求點數和的期望值。

兩顆骰子的點數和，可能出現的結果為 $2$, $3$, $4$, ..., $12$。正常的做法就是把這些結果發生的機率分別求出來，比如說叫做 $P_2$, $P_3$, ..., $P_{12}$，那問題要求的期望值就是 $$2P_2 + 3P_3 +\cdots + 12P_{12}$$這其實還不算太複雜，比如說要計算 $P_5$，那就看點數和等於 $5$ 有多少種方法，答案是四種：$1+4$, $2+3$, $3+2$, $4+1$，由於每一種可能發生的機率都是 $1/6 \times 1/6 = 1/36$，所以 $P_5 = 4/36$。又比如 $8$ 可以寫成 $2+6$, $3+5$, $4+4$, $5+3$, $6+2$，共五種方法，所以 $P_8$ 就是 $5/36$。像這樣，很容易求出 $P_2$ ~ $P_{12}$ 的值，再代入上面期望值的列式，即可求得答案為 $7$。但接下來，如果我們稍微把問題變難一點點：把兩顆骰子改成三顆，再使用同樣的方法就會變得很麻煩了。首先，三顆骰子的點數和，可能的結果為 $3$, $4$, $5$, ..., $18$，因此我們就有 $P_3$ ~ $P_{18}$ 要算，不止數量更多，而且要計算每個 $P_k$，我們需要知道三顆骰子加起來等於 $k$ 的方法數，也更麻煩。這還只是三顆骰子的情形，如果再繼續考慮四顆、五顆以上的情形，那計算的複雜程度真的會讓人受不了。

那麼，「聰明的做法」是怎麼樣呢？首先我們先看「擲一顆骰子的點數期望值」。擲一顆骰子，總共就六種可能：$1$, $2$, $3$, $4$, $5$, $6$。每一種可能發生的機率都是 $1/6$。因此期望值就是 $$\textstyle 1\cdot\frac{1}{6}+2\cdot\frac{1}{6}+\cdots+6\cdot\frac{1}{6} = \frac{7}{2}$$ 我們知道，所謂的「期望值」就是「平均」，因此上面的結果告訴我們，擲一顆骰子平均來說會得到 $7/2$ 點。那擲兩顆骰子，平均來說點數和當然就是 $7/2+7/2 = 7$ 點，這正是「兩顆骰子點數和的期望值」。同樣的想法，擲三顆骰子，點數和的期望值應該就是 $3\times\frac{7}{2} = \frac{21}{2}$、四顆骰子就是 $4\times\frac{7}{2}=14$，$n$ 顆骰子就是 $\frac{7n}{2}$，就這麼簡單！可喜可賀！可喜可賀！......但是，等等，為什麼可以這樣算呢？雖然聽起來很合理，可是它是根據哪條公式？哪個定理？即使只看兩顆骰子的情形，如果我們試著從「正常做法」的列式出發，要怎麼把它拆成兩個「一顆骰子的期望值」相加，也不是很顯然（不是不可能，只是有點複雜，我們後面也不會這樣去想）。所以怎麼辦？除了「感覺是這樣沒錯」，怎麼解釋？

【例二】箱中有 5 個不同物件，每次隨機取 1 物後放回，連續取 3 次，請問共取得「相異物件數」的期望值為何。

所謂「共取得相異物件數」，就是總共拿到多少種不同的東西。因為每次取物之後會放回去，所以可能會重複拿到同一個物件。最極端的情形就是三次都拿到同一個東西，相異物件數就是 1，也可能三次取物拿到兩種不同的東西，那相異物件數就是 2，如果三次都拿到不同的東西，相異物件數就是 3。因此正常的做法，就是把相異物件數等於 1, 2, 3 的機率分別求出來，我們還是用 $P_1$, $P_2$, $P_3$ 來表示，這樣，期望值就是 $1\cdot P_1 +2\cdot P_2 + 3\cdot P_3$。由於題目的數字（"5"物，取"3"）並不大，這個做法也還不算太困難（有興趣的人可以自己試試看，可以練習一下排列組合，答案下面就會看到）。不過，跟前面的例子一樣，只要題目裡的數字稍微再放大一些，用這個正常做法就會變得痛苦很多。舉例來說，即使仍然考慮 5 個物件，但如果取物次數也增加到 5 次，相異物件數就有 1, 2, 3, 4, 5 五種可能，而且要計算這些可能發生的機率也麻煩得多。

現在來看「聰明的做法」。比起上面擲骰子的問題，這可能比較難想到。關鍵就是先看：「針對某一個物件，完成三次取物之後，它被取到的機率為何？」要算此機率，最簡單的做法是用 1 去減掉「沒被取到的機率」。所謂沒被取到，也就是說三次取物，每次都是取到其他四個東西，所以機率等於 $(4/5)^3$。因此，某物件「有被取到的機率」是 $1-(4/5)^3$。現在，每個物件的地位其實都是一樣的，所以每個物件在完成三次取物之後，有被取到的機率都是 $1-(4/5)^3$，而總共有五個物件，因此平均來說應該有 $5\cdot[1-(4/5)^3]=61/25$ 個物件會被取到，這正是題目要求的期望值！這做法不但比上面的「正常算法」簡單得多，而且不管題目裡面的數字怎麼改，基本上都不會增加解題的困難度。我們不妨直接看一般的情形：「假設箱中有 $n$ 個物件，取 $m$ 次，同樣是每次取物都放回，問共取得相異物件數的期望值。」一樣，先針對單一物件，看它最後有被取到的機率是多少，答案是 $1-(\frac{n-1}{n})^m$。然後，由於每個物件被取到的機率都是這麼大，而總共有 $n$ 個物件，因此平均來說會取到 $n[1-(\frac{n-1}{n})^m]$ 個物件，這就是答案。這做法非常聰明，但是，還是同樣的問題：為什麼可以這樣算？我們運用了「平均」的想法，巧妙地避開了繁複的計算，但這樣的技巧的合法性在哪？

如果你是高中生（或更小），看了上面兩個聰明的解法，覺得「太棒了！我喜歡這種直覺式的解法！」恭喜你，你是一個聰明而且大膽的人，有成為科學家的潛力。而如果比起高興，你更多的是感到困惑，覺得「三小啦為什麼可以這樣做？」那恭喜你，你很謹慎，有成為數學家的潛質。當然，要成為數學家，不輕易相信直覺還不夠。畢竟人家真的把答案算出來了，不能只是丟下一句「你亂講」然後就瀟灑地走開。如果像上面這樣直覺式的推理總能得到正確答案，那它就是一個正確的方法。只是這個「正確」的機制是什麼？

§基本概念

事實上，前面提到的聰明解法，都是很正規的做法。它們背後的機制，就是「期望值是隨機變數的可加性函數」，但這在高中課程中一般並不會提到，即使有老師「不小心」使用了它，也很少會進一步說明它的來龍去脈。事實上它並不深奧，但因為在高中課程中就是少講了一些東西，使得要說明它變得有點麻煩。然而至於到底少了什麼，根據不同的教材以及不同的授課教師也會有所不同。總之，為了確保讀者具備所有必要的知識，我們先花一點篇幅把它們整個走一次，大部分的地方可能只是複習早就知道的東西而已。

首先，機率中常常考慮的像是擲硬幣、擲骰子、箱中取球之類的這些行為，可稱為「隨機試驗」。我們可以花時間去探討「隨機試驗」應該含有哪些要素與規範，但實際上這並不是很有意義，這裡就讓我們粗略地把它想成「有不止一種可能結果的實驗」就好。把一個隨機試驗的「所有可能結果」收集起來，組成的集合稱為「樣本空間」。比如擲一枚硬幣，可能的結果有正面跟反面，因此它的樣本空間就是 $\{\raise 1px{正面},\raise 1px{反面}\}$。擲一顆骰子，樣本空間就是 $\{1,2,3,4,5,6\}$。當然我們也可以更形象地用 $\{$⚀,⚁,⚂,⚃,⚄,⚅$\}$ 表示，但反正寫 $\{1,2,3,4,5,6\}$ 也能明白（而且打字比較方便）。相同的隨機試驗，也可以根據自己所關心的重點，設定不同的樣本空間。比如說同樣是擲一顆骰子，如果只在乎「出現偶數點」或是「出現奇數點」，那將樣本空間設定為 $\{\raise 1px{偶數}, \raise 1px{奇數}\}$ 也無妨。事實上，「隨機試驗」只是問題發起的動機，它沒有（也無需）明確的數學定義。在探討機率問題時，至少就純數學的部分來說，真正要說清楚的「第一件事」就是樣本空間是誰。

樣本空間也可能包含無窮多個元素。比如「在一張紙上任選一點」，這是一個隨機試驗，其樣本空間就是這張紙的所有點組成的集合，是一個無限集。但這種無限集的樣本空間，如果要嚴格討論起來，會產生一些新的議題，讓本文變得難以收拾。為了簡化說明，接下來我們就只考慮樣本空間有限的情形就好。以下我們不妨抽象地假設有一個隨機試驗，樣本空間為 $\{R_1,R_2,\ldots,R_n\}$，也就是說它總共有 $n$ 個可能的結果。接著，需要說清楚的「第二件事」，就是每個結果 $R_k$ 發生的機率。讓我們把 $R_k$ ($k=1,2,\ldots,n$) 發生的機率記作 $P(R_k)$。$P(R_k)$ 需要滿足兩個條件：

每個 $P(R_k)$ 都 $\ge 0$
$P(R_1)+P(R_2)+\cdots+P(P_n) = 1$

原則上這些 $P(R_k)$ 也是先給好的。現實中，它們的值往往來自於經驗與觀察，也可能是根據科學原理做出的推測。比如如果老王的太太說「老王週末有七成的機率會出門，三成的機率待在家耍廢」，這個「七成」與「三成」比較可能就是從經驗得到。還有一種理想化的情形很常用，就是直接假定「每個結果發生的機率均等」。以上面 $P(R_1)$ ~ $P(R_n)$ 來說，就是假設每個 $P(R_k)$ 都是 $1/n$，這種情況（或者說不知道是不是這種情況但決定使用這種假設）稱為「古典機率」。高中機率中常考慮的像是擲硬幣（假設正面反面機率都是 1/2）、擲骰子（假設每個點數出現的機率都是 1/6）等，都是古典機率的例子。比較嚴謹一點的問題陳述，就會加上「公正的」硬幣，「均勻的」骰子之類的形容詞，就是在強調我們使用了這個假設。對於本文所要講述的內容，考慮「古典」的情形並不會帶來什麼特別的好處（儘管我會常常舉古典的例子），所以我們也就不需要特別假設每個 $P(R_k)$ 都等於 $1/n$。

接下來，「樣本空間的子集合」我們稱為「事件」。為什麼呢？以擲一顆骰子為例，我們可以考慮「出現偶數點」的事件，抽象一點說就變成「點數落在 $\{2,4,6\}$ 這個子集合」的事件，再更偷懶一點，乾脆就說「$\{2,4,6\}$」這個事件。總之，為了方便，「事件」就直接抽象化成「樣本空間的子集合」。以擲骰子來說，任何 $\{1,2,3,4,5,6\}$ 的子集，比如 $\{1,5\}$, $\{1,2,4,5,6\}$, 或像是單一元素集 $\{2\}$ 都是可以考慮的事件。邏輯上空集合也是一個事件，但這比較偏向是數學上的方便設定而已，對於現實中真正有意思的問題這並不重要。

我們前面說，樣本空間中的元素發生的機率要先給好，比如老王待在家的機率是「三成」，骰子擲出點數 5 的機率是「$1/6$」，這些都不用算。不過，如果是「事件」發生的機率，可能就需要計算。事實上，所有「請問 xxx 的機率是多少」這樣的考題，這個 xxx 都是指一個事件。比如我們可以問像是「擲一顆骰子，點數小於 3 的機率是多少？」也就是說「結果落在 $\{1,2\}$ 這個事件的機率是多少？」把它記作 $P(\{1,2\})$。當然我們一眼就可以看出 $P(\{1,2\})=1/3$，因為 $\{1,2\}$ 佔了整個樣本空間 $\{1,2,3,4,5,6\}$ 的 $1/3$。不過，注意這個用「佔比」來決定機率的方式，也是古典機率獨有的特性：$$P(\mbox{某事件 }A) = \frac{\mbox{構成 } A \mbox{ 的元素數目}}{\mbox{樣本空間的元素總數}}$$一般考試的問題肯定不會像上面的例子那麼廢，通常都會涉及排列組合，每一種可能的結果都對應到排列組合的一種「方法」，因此就變成我們常說的$$機率 = \frac{事件發生的方法數}{總方法數}$$ 表面上在問機率，實際上都是在幫你複習排列組合，其用心之險惡良苦，大家應該都深有體悟。

對於我們的抽象樣本空間 $\{R_1,\ldots,R_n\}$，由於每個 $P(R_k)$ 並不一定相同，這時我們如果要問一個事件的機率，就不能單看事件裡有多少元素，而是要把事件中的每個元素發生的機率加起來。比如 $P(\{R_1,R_2\})=P(R_1)+P(R_2)$、$P(\{R_3,R_4,R_5\})=P(R_3)+P(R_4)+P(R_5)$，等等。當然，如果某個事件只包含單一元素，那它的機率就是那個元素的機率：$P(\{R_k\})=P(R_k)$。

接下來，讓我們假設我們今天進行的隨機試驗，每個結果 $R_k$ 都對應了一個「我們感興趣的數字」$a_k$。這個「感興趣的數字」在實際的應用上會代表什麼有各式各樣的可能，不過最簡單、最容易想像的例子就是賭博的「獎金」。也就是說當試驗（賭局）的結果為 $R_k$，我們就獲得 $a_k$ 元。我們可以考慮 $a_k$ 有正有負，如果是負的，就想成是要賠多少錢。有了獎金規則之後，我們自然會想知道「平均來說，每次試驗我們會獲得多少錢（或賠多少）」，也就是獎金的「期望值」。我們將其定義為 $$a_1 \cdot P(R_1)+a_2\cdot P(R_2)+\cdots+a_n\cdot P(R_n)$$用白話說，就是

「期望值 = 把每個結果對應的獎金乘上此結果發生的機率，再通通加起來」

這個「求平均」的想法應該蠻自然的。不過，它似乎跟一般高中課本教的期望值算法（也就是我們刻意稱為「正常算法」的那個方法）有點不一樣，不知道讀者是否能看出其中的差異？事實上它們是在算同一個東西，如果一時想不清楚沒關係，請先忘掉那個「正常算法」，我們之後會說明，但這裡我們的任務還沒走完。

接下來要說的是，我們前面給的期望值定義，裡面有件事有點太白話了，就是「感興趣的數字」$a_k$ 這個東西。事實上白話並沒有什麼錯，但如果無法抽象理解它的本質的話，可能會不方便運用到各式各樣的問題，也比較難進一步深化我們的思考。現在我們來看看它到底是個什麼樣的數學物件。注意到，這個感興趣的數字，它其實並不是一個固定的數字，而是「會隨著隨機試驗的結果而改變的數字」，因此我們將其稱為「隨機變數」。這個名稱聽起來比較動感一點。如果從另一個角度來看，你想要描述它，其實就只是要講清楚「每個 $R_k$ 對應到的 $a_k$ 是多少」，所以說…沒錯，就是一個函數關係。從抽象的角度來看，它就是一個「定義在樣本空間上的函數」。這是一個非常重要的概念，讓我們慎重地將它寫下來：

隨機變數 = 定義在樣本空間上的函數

再回到期望值。我們上面說「對於我們感興趣的數字，我們可以求它的期望值。」現在我們就可以改成更有學問的說法：「對於一個隨機變數，我們可以求它的期望值。」任何「請問xxxx的期望值」這樣的問題，這個xxxx必定是在描述一個隨機變數。如果把上面那個「$R_k$ 對應到 $a_k$」的隨機變數記作 $X$（也就是說 $X$ 是樣本空間 $\{R_1,...,R_n\}$ 上的函數，$X(R_k)=a_k$），並把它的期望值記作 $E[X]$，則按照前面說的期望值的定義就是 \begin{equation}\label{D1} E[X]=a_1\cdot P(R_1)+\cdots +a_n\cdot P(R_n)\tag{$\mbox{D1}$} \end{equation}

這裡我們談一下記號。由於歷史發展的原因，隨機變數常常會先選用大寫 $X$ 或 $Y$ 之類的符號，而不是像一般談到函數時習慣用 $f,g$ 之類的。但這當然不是什麼重要的守則。你今天想用其他的符號，不管是 $f,g$ 或是 $\alpha,\beta$ 什麼的都可以，講清楚就好。另外，期望值 $E[X]$ 中的方括號也常常用圓括號 $E(X)$，兩派都很多，也有人喜歡把 $E$ 寫得比較 fancy，像 $\mathbb{E}[X]$，高興就好。

最後舉一個簡單的例子來把這一段收尾。假設你跟小美賭博，擲一枚硬幣，若出現正面，小美要給你 10 元，若出現反面，你只要給小美 8 元（對，小美就是佛心）。這樣，你就可以用以下的隨機變數來描述你的輸贏情形：$$X(正面) = 10,\quad X(反面)=-8$$注意到這裡 $X$ 就是一個定義在樣本空間 $\{正面,反面\}$ 上的函數。由於正面與反面發生的機率都是 1/2，所以 $E[X]=10\cdot\frac{1}{2}+(-8)\cdot\frac{1}{2}=1$。也就是說，平均來說你每玩一次遊戲可以賺到 1 塊錢。

到此我們的「基本觀念」就解說完了。下面我們就來看看「期望值的可加性」到底是什麼。

§期望值的可加性

上面我們舉了一個擲硬幣的例子，並考慮以下的隨機變數：$$X(正面)=10,\quad X(反面)=-8$$我們說這描述了你與小美的賭局規則，然後求出 $E[X]=1$。現在我們再假設，你「同時」也跟其他人賭，但可能採用不同的規則（也不排斥使用相同的規則）。比如小明跟你約定出現正面的話你要給他 $6$ 元，出現反面他會給你 $5$ 元。這樣，我們又可以用另一個隨機變數來描述這個規則，比如叫做 $Y$：$$Y(正面)=-6,\quad Y(反面)=5$$同樣可以求期望值：$$\textstyle E[Y]=-6\cdot\frac{1}{2}+5\cdot\frac{1}{2}=-\frac{1}{2}$$現在注意，我們只需要進行「一次」隨機試驗（擲硬幣一次），就能同時考慮「多個」隨機變數（同時跟多人對賭 $\Rightarrow$ 多種獎金規則）。如果我們真的這樣做，那麼，我們很自然地會考慮「跟所有的對手結算之後，總和的獲利」是多少。以上面的例子來說，只有兩筆獎金 $X,Y$，總和獲利就是 $X+Y$。若出現正面，你的獲利是$$(X+Y)(正面)=10-6=4$$若出現反面，則為$$(X+Y)(反面)=-8+5=-3$$注意，$X+Y$ 仍然是樣本空間 $\{正面,反面\}$ 上的隨機變數，它只是把兩筆獎金加起來。然後，我們當然也可以算這個「總和隨機變數」的期望值：$$E[X+Y]= \textstyle (X+Y)(正面)\cdot\frac{1}{2}+(X+Y)(反面)\cdot\frac{1}{2}$$如果我們把 $X+Y$ 綁起來看成「一個隨機變數」，直接代入 $(X+Y)(正面)=4$ 以及 $(X+Y)(反面)=-3$，可求出答案為 $1/2$。但另一方面，由於 $(X+Y)(正面)$ 其實就是 $X(正面)+Y(正面)$，而 $(X+Y)(反面)$ 就是 $X(反面)+Y(反面)$，如果將這個拆解代入上式，立刻可看出 $E[X+Y]=E[X]+E[Y]$，同樣可求得答案是 $1/2$。這個 $E[X+Y]=E[X]+E[Y]$，就是「期望值的可加性」！

如上所示，「期望值的可加性」指的是

當「同一個」樣本空間上，有「多個」隨機變數，比如 $X_1,X_2,\ldots,X_m$，則我們有 $E[X_1+\cdots+X_m] = E[X_1]+\cdots+E[X_m]$。

前面的例子只考慮兩個隨機變數 $X,Y$，樣本空間只有兩個元素：「正面」跟「反面」，而且還是古典機率：$P(正面)=P(反面)=1/2$。但對於一般的情形，證明其實幾乎一樣，近乎廢話，讀者可以稍微想一下，這裡就不再贅述。事實上，不難看出我們可以把 $E[X+Y]$ 進一步推廣到 $$E[aX+bY]=aE[X]+bE[Y]$$其中 $a,b$ 是任意的倍數。比如 $E[2X+5Y]=2E[X]+5E[Y]$。這樣的性質對於更多隨機變數也沒問題，比如 $E[1.3X-2.2Y+5Z]=1.3E[X]-2.2E[Y]+5E[Z]$。這稱為「線性」，或更完整地說：「期望值是隨機變數的線性函數」。「可加性」只是「線性」的一部分。

再補充一個特殊情形，就是 $E[常數]=常數$，比如 $E[3]=3$，$E[-\pi]=-\pi$。這是什麼意思呢？這裡 $E[常數]$ 中的「常數」要理解為「常數函數」，就是說我們所考慮的隨機變數取值是固定的。比如說，無論你骰子擲出幾點，阿華都會給你 5 元（可能他就是想看你擲骰子的英姿而已），那對應的隨機變數就是「永遠等於 5」的這個函數，所以直接寫 5 就好了。而獎金的期望值就是 $E[5]=5$，就這麼無聊。根據上面說的線性關係，可以推得我們也有 $E[aX+b]=aE[X]+b$ 這樣的公式。

最後，我們來看看，我們所說的期望值的定義，跟解題時常用的「正常算法」，它們之間到底是什麼關係。這用一個簡單的例子來看就會很清楚。假設某樣本空間包含 6 個元素：$\{R_1,R_2,R_3,R_4,R_5,R_6\}$，並考慮如下獎金規則：若結果為 $R_1$ 或 $R_2$，得 $a$ 元，若結果為 $R_3$, $R_4$, $R_5$，得 $b$ 元，而若結果為 $R_6$，得 $c$ 元。用隨機變數 $X$ 表示這個獎金，則按定義，它的期望值為$$E[X] = aP(R_1)+aP(R_2)+bP(R_3)+bP(R_4)+b P(R_5)+c P(R_6)$$這時注意到，由於有些結果的獎金一樣，可以合併在一起。比如前兩項獎金都等於 $a$，可以合寫成 $a(P(R_1)+P(R_2))$。注意到 $P(R_1)+P(R_2) = P(\{R_1,R_2\})$，這其實就是獎金 $X=a$ 發生的機率，因此我們又可自然地將其記成 $P(X=a)$。所以前兩項合起來是 $a P(X=a)$。同樣，把第三項、第四項跟第五項合併，可以寫成 $b P(X=b)$。然後最後一項，「$R_6$」恰好就是「$X=c$」，因此可寫成 $c P(X=c)$。全部合起來看，就得到期望值等於 $$a P(X=a)+b P(X=b)+c P(X=c)$$這就是所謂的「正常算法」。一般地，如果某個隨機變數 $X$ 的所有可能取值為 $a_1,\ldots,a_m$，則它的期望值為 \begin{equation}\label{D2} a_1 P(X=a_1)+a_2 P(X=a_2)+\cdots+a_m P(X=a_m)\tag{$\mbox{D2}$} \end{equation} 用白話說，就是

「期望值 = 把每個獎金乘上獲得此獎金的機率，再通通加起來」

所以，所謂的正常做法只是把「定義」裡相同獎金的項合併計算。然而，就是這樣一個「化簡」，卻使得期望值的可加性變得比較神祕。因為 \eqref{D2} 完全針對「目標隨機變數」$X$ 來列式。如果今天關心的隨機變數不止一個，用這個算法就會把它們糾纏在一起。舉個例子：假設 $X,Y$ 是相同樣本空間上的兩個隨機變數，其中 $X$ 的可能取值為 $1,2$，$Y$ 的可能取值為 $3,4$，則 $X+Y$ 的可能取值為 $4,5,6$。使用 \eqref{D2}，得到 \begin{align*} &E[X]=1\cdot P(X=1)+2\cdot P(X=2)\\[4pt] &E[Y] = 3\cdot P(Y=3) +4\cdot P(Y=4)\\[4pt] &E[X+Y] = 4\cdot P(X+Y=4)+ 5\cdot P(X+Y=5) + 6\cdot P(X+Y=6) \end{align*} 為什麼 $E[X+Y]=E[X]+E[Y]$？它變得沒那麼顯然。倒也不是說不能從這個地方開始去證明它，只是就麻煩一點點，這裡我們就不去費這個心了。

最後，為了避免誤解，需要說明一下，我們為期望值下了一個定義，也就是 \eqref{D1}，並用它推導出「正常做法」，也就是 \eqref{D2}。然而，事實上這也只是一種選擇。邏輯上來說，它們倆選誰當定義都可以，畢竟它們就是在算同一個東西。\eqref{D2} 本身的想法就很自然，而且把 $P(X=a_k)$ 直接理解為「獎金等於 $a_k$ 的機率」，完全不需要樣本空間與隨機變數的概念就能懂（當然，這些概念並沒有消失，只是無需明確注意到它們）。這優點使得它在教學上更為直接，也因此被許多高中教材所採用。事實上，有些大學教科書也是用 \eqref{D2} 做為定義，不過反正這樣一來要付出的代價就是可加性變得比較難證明。有些應用導向的書籍就乾脆不證明直接請讀者接受，使得一個很單純的東西就這樣變成一個迷，而高中課程則是選擇直接把期望值的可加性刪去。

好了，那我們的解說就到此為止……什麼？你說第一節裡提到的那些「聰明的做法」？嗯嗯……我想該有的知識都有了，就交給讀者自己想想看怎麼去解釋它們吧。

開玩笑的啦 😘，不過在繼續看下去之前，讀者還是可以先試試看能不能自己破解。想不清楚也不用灰心，畢竟理論與實踐本來就是兩回事（明明覺得課本都讀懂了，看到題目腦袋還是一片空白）。

§解答與更多例子

現在就讓我們來看看，第一節裡面提到的兩個「聰明的解法」如何使用期望值的可加性來解釋。

【例一】擲兩顆骰子，求點數和的期望值。

【答】不妨把兩顆骰子做個編號，比如稱為「第一顆」與「第二顆」，然後用數對 $(a,b)$ 表示「第一顆」骰子擲出 $a$ 點，「第二顆」骰子擲出 $b$ 點的情形。這樣，樣本空間就是 $$\begin{align*}\{&(1,1),(1,2),...,(1,6),\\ & (2,1), (2,2),..., (2,6),\\ &\qquad\qquad\vdots\\ & (6,1), (6,2),..., (6,6) \}\end{align*}$$總共 36 種可能。用隨機變數 $X$ 表示「第一顆骰子」的值，用 $Y$ 表示「第二顆骰子」的值。也就是說 $X(a,b)=a$, $Y(a,b)=b$。注意，$X,Y$ 都是定義在上述的樣本空間上，也就是說它們背後的隨機試驗都是「擲兩顆骰子」，只不過它們各自只關心其中一顆骰子的值，對於另一顆的值則完全不在意。而「兩顆骰子的點數和」，就是 $X+Y$。由於事件「$X=1$」（也就是第一顆骰子擲出 $1$）包含了 $(1,1),(1,2),...,(1,6)$ 這六種可能，佔了全部的 1/6，所以 $P(X=1)=1/6$，跟只擲一顆骰子沒兩樣。（這裡我們自然還是使用古典機率假設，就是 36 種可能的每一種出現的機率都一樣，所以可以用「佔比」來計算事件的機率。）類似地，$P(X=2)$, $P(X=3)$,... , $P(X=6)$ 都等於 1/6。所以 $$\textstyle E[X]=1\cdot\frac{1}{6}+2\cdot\frac{1}{6}+\cdots+6\cdot\frac{1}{6}=\frac{7}{2}$$這個算式完全跟「擲一顆骰子的點數期望值」一樣，只是在這裡，我們事實上是將它理解為「擲兩顆骰子，但只看其中一顆的期望值。」同樣，$E[Y]$ 也等於 $7/2$，這是只看另外一顆骰子的期望值。而我們想問的「兩顆骰子點數和的期望值」正是 $E[X+Y]$。根據「期望值的可加性」，得到 $E[X+Y]=E[X]+E[Y]=7$。

理解了上面的論述以後，如何推廣到 $n$ 顆骰子的情形，我想應該無需多言了。

【例二】箱中有 5 個不同物件，每次隨機取 1 物後放回，連續取 3 次，請問共取得「相異物件數」的期望值為何。

【答】讓我們把 5 個物件稱為 $A_1,A_2,A_3,A_4,A_5$。把三次取物的結果按順序寫成一個三元組 $(A_\alpha,A_\beta,A_\gamma)$，比如說 $(A_1,A_4,A_2)$ 表示第一次拿到 $A_1$, 第二次拿到 $A_4$, 第三次拿到 $A_2$，$(A_3,A_5,A_3)$ 表示第一次拿到 $A_3$, 第二次拿到 $A_5$, 第三次又拿到 $A_3$，像這樣。樣本空間就是所有的 $(A_\alpha,A_\beta,A_\gamma)$ 組成的集合，其中 $\alpha,\beta,\gamma$ 可為 1 ~ 5 的任何一個數（所以總共有 $5\times 5\times 5=125$ 種可能）。現在用 $X$ 表示「相異物件數」，比如 $X(A_1,A_4,A_2)=3$，$X(A_3,A_5,A_3)=2$，$X(A_1,A_1,A_1)=1$。我們想要求的就是 $E[X]$。這裡只有一個隨機變數 $X$，為了使用「期望值的可加性」，需要適當地將 $X$ 拆成其他更簡單的隨機變數相加。對應我們在第一節中所給的「聰明的做法」，其實就是把 $X$ 分成五個隨機變數 $X_1$ ~ $X_5$，其中 $X_k$ 是用來「指示」$A_k$ 有沒有被取到：$X_k=1$ 表示有取到，$X_k=0$ 表示沒取代。比如說 $X_2(A_1,A_2,A_3)=1$，$X_2(A_3,A_4,A_5)=0$。請注意，我們只看「有」或「沒有」，不計算取到的次數。如果同一物取到兩次以上，還是算 1，比如 $X_3(A_2,A_3,A_3)=1$，$X_5(A_5,A_5,A_5)=1$。這樣，可以看出$$X=X_1+X_2+X_3+X_4+X_5$$ 這個拆解是整件事的核心，請確定自己完全理解。有了它之後，我們需要算的東西就簡化成 $E[X_k]$ ($k=1,2,3,4,5$)。對此，不妨使用「正常做法」。由於 $X_k$ 的取值只有 $0$ 與 $1$，因此$$E[X_k]=0\cdot P(X_k=0)+1\cdot P(X_k=1)$$前面 $0\cdot P(X_k=0)$ 等於 $0$，不用算，後面 $1\cdot P(X_k=1)= P(X_k=1)$，這正是「$A_k$ 有被取到的機率」。這東西怎麼算我們已經講過了，它的答案是 $1-(4/5)^3$。最後，由於每個 $E[X_k]$ 都等於 $1-(4/5)^3$，因此得到 $$E[X]=E[X_1]+E[X_2]+\cdots+E[X_5]=5\cdot\left[1-(4/5)^3\right]=61/25$$

如何把上面的論述推廣到一般「$n$ 個物件，取 $m$ 次」的情形也是顯然的，我們就略去了。

以上就是兩個「聰明的做法」的嚴謹版。一切都很美好，是吧？不過，話說回來，是否一定要像上面那樣把所有的東西（樣本空間是誰、考慮哪些隨機變數）都講得清清楚楚，還是像第一節中那樣使用直覺式的論述就好？這就取決於你的品味（如果是考試，那就只好取決於閱卷老師的品味）。經歷過大學數學系的折磨訓練~~還沒死~~，並因此對「嚴謹數學」產生信仰的人~~（也就是俗稱的斯德哥爾摩症候群）~~，會偏向應該把所有的東西都講清楚，而且可能認為不這樣做是一種罪。但除了這群特異人士之外，其實很少有人這麼做，通常都是直覺行事。本文的目的只是解惑，沒有宣揚「該怎麼做」的意思。其實「很嚴謹」跟「很直覺」都有各自的問題，前者沒效率，後者（思慮不周時）容易胡說八道。最好就是兩種都會，平常能自由自在地使用直覺，但在不那麼有把握時，也能好好地把每個東西寫清楚進行確認。（知道法律的中心在哪，才能遊走在法律的邊緣而不犯法。）

最後再分享三個有趣的例子（接續第一節的【例一】與【例二】，就稱為【例三】、【例四】、【例五】）。

【例三】這個 blog 原本就有一篇文章使用了「期望值的可加性」來解決問題，也就是〈為什麼取後放回跟取後不放回的期望值一樣？〉，這就是我們的第三個例子。

接下來兩個問題可能比較困難，最後有提示。

【例四】問題：「箱中有3紅球，4白球，每次隨機取一球，取後不放回，直到取完紅球。請問取球數的期望值。」這裡"3"紅球"4"白球也是比較小的數字，使用正常做法也還不至於太複雜。但我們的挑戰當然是請你想出「聰明的做法」，看看能不能利用「平均」的直覺推出答案，或使用「期望值的可加性」給出嚴謹的版本。如果能做到，推廣到一般「m 紅球，n 白球」的情形只是舉手之勞而已。另外，這個問題有時會以下面這個完全不同的樣貌出現：「袋中有六個球，分別印有 1、2、3、...、6 等號碼，今自袋中隨機取出三個球，每球被取出的機會均等，問三球中「最大數字」的期望值為何？」乍看之下跟上面「紅白球」是完全不同的問題，其實......

【例五】這是在 ptt Math 版看到的問題，很有趣：「魷魚遊戲第五關玻璃橋，到達終點總共要走18步，而每一步都要在兩片玻璃中二選一，選對了就是強化玻璃，選錯了就掉下去。假設選對選錯的機率都是二分之一，選手總共20位，每位選手都有超凡記憶力，都有辦法記得自己前面的人經過哪些玻璃，不會犯相同錯誤。問最後成功通關的人數期望值為何。」一樣，想辦法找到聰明的做法。然後，試著推廣到一般「m塊玻璃，n位選手」的情形。

下面是提示。

首先關於【例四】，這個網頁有討論串 (網頁如果壞了，希望有好心人可以告訴我)，裡面就有直覺的做法。另外，六顆球的問題可看這裡（PTT數學版），在下面的推文裡，網友 XII 給了一個很短的列式，完全沒在跟你543的。

至於【例五】，原始問題的連結在這裡，下面第一個推文 emptie 大一行就解決了（能夠一行解決，本身就是一個提示？）。六樓 silvermare 的推文也提示了嚴謹的說法該怎麼設隨機變數。接下來......

謎之聲：如果只有一個選手要通過3塊玻璃，會怎麼樣呢？

枝微末節

2022年4月14日星期四

為什麼期望值可以直接相加？