Processing math: 100%

2020年3月11日 星期三

為什麼取後放回跟取後不放回的期望值一樣?

考慮下面的問題:
箱中有 2 顆紅球 3 顆白球。隨機取一球,若為紅球得 10 元獎金,若為白球得 20 元獎金。假使取後放回,連續玩兩次,問獎金期望值為何?若改成取後不放回,又如何?
正常的做法可能是像下面這樣:
分成「紅紅、紅白、白紅、白白」四種可能。若取後放回,期望值為 202525+302535+303525+403535=32
若取後不放回,則為 202514+302534+303524+403524=32
放不放回得到的答案竟然是相同的!這並非巧合。事實上,我們可以把它推廣到下面的一般情形。
定理    箱中有 m 顆紅球 n 顆白球。隨機取一球,若為紅球得 p 元,白球得 q 元。則連續玩 k 次,其中 km+n,無論規則是取後放回或取後不放回,所得獎金的期望值皆等於 k(pmm+n+qnm+n)
(但請注意,「取後放回」或「取後不放回」要先約定好,在整個遊戲過程中一致,不可以有些球放回有些球不放。)
注意到 pmm+n+qnm+n 其實就是只取一球的獎金期望值。因此上面的定理告訴我們,取 k 球的期望值就是只取一球的期望值乘以 k 倍這麼簡單,無論取後放回或是取後不放回。但是如果按照上面的「正常解法」,分成各種可能,逐一計算再相加,不但複雜,而且很難看出來為什麼會有這樣的結果,只能說算出來剛好一樣,太神奇了!一個比較好的推導方式,是利用期望值是隨機變數的加性函數這件事,詳細如下。
把完成 k 次取球視為一次遊戲。無論採「取後放回」或「取後不放回」,依照規則,玩一次遊戲所得獎金為 X=p×總共取得的紅球數+q×總共取得的白球數
這個 X 的值會根據我們的遊戲結果而有所不同,因此稱為隨機變數。我們要算的就是 X 的期望值,記作 E[X],但現在我們不使用前面的列式,而是先注意到 X 可以分成各次取球的獎金相加。也就是說 X=X1+X2++Xk
其中 Xi 表示第 i 球所得獎金。根據規則, Xi={p,第 i 次取得紅球q,第 i 次取得白球(i=1,2,,k)
注意這些 Xi 同樣是我們「取 k 球遊戲」的隨機變數,只不過它的值只取決於第 i 球的結果,而不在意其他球是什麼顏色。由於期望值為隨機變數的加性函數,因此 E[X]=E[X1]+E[X2]++E[Xk]
這樣,我們只要算出各個 E[Xi] 再相加就可以。這就簡單很多,它的值為 p(第 i 次取球拿到紅球的機率)+q(第 i 次取球拿到白球的機率)
要算這個東西,我們還要利用下面這件事:
  • 無論是取後放回或取後不放回,第 i 次拿到紅球的機率都是 mm+n,拿到白球的機率都是 nm+n
如果是取後放回,這是廢話。取後不放回應該也符合直覺......是吧?注意這裡的機率指的是「還沒開始遊戲之前,預估第 i 次會拿到紅/白球的機率」,而不是已經拿完 i1 球,然後看下一球是紅/白球的機率。這就跟抽籤一樣,在大家都還沒開始抽之前,人人平等。你排第一個抽,或是第十個抽,抽到籤王的機率都一樣。如果對這件事覺得有些疑慮,或單純對這個問題的分析覺得有興趣,可參考〈抽籤的順序重要嗎?〉。總之,這裡我們就直接接受它。因此得到 E[Xi]=pmm+n+qnm+n
這答案對於 i=1,2,,k 都一樣,代回 (1) 式即推得我們所要的結果。

   也就是說針對相同隨機試驗的兩個隨機變數 X,YE[X+Y]=E[X]+E[Y]。由此不難看出有限和的情形 E[X1++Xk]=E[X1]++E[Xk] 亦成立。這不屬於高中課程的範圍,但許多老師會偷用。想了解它為什麼成立,以及知道更多相關的有趣問題,可參考這篇文章

1 則留言: