1. EXAMPLES
3.1 Estimating Kevin Mitchell's Home Run Rate in 1989
Suppose that the time is March 1989 and a baseball fan is interested in estimating Kevin Mitchell's home run productivity for the 1989 baseball season. We mea sure home run productivity by p, the probability that Mitchell hits a home run during an official at-bat (plate appearance). The 1989 baseball season has not started yet, but Mitchell has played for the Giants the previous three seasons with home run statistics given in Table 1. The baseball fan would expect Mitchell's productivity to be similar to that of the previous three seasons. However, the fan knows (from reading newspaper reports) that Mitchell is hitting unusually well during the 1989 spring training games. Also, a player usually becomes more proficient in hitting as he matures as a major leaguer. Thus there is some belief that Mitchell's home run productivity would be greater than indicated in his past major league performance.
The baseball fan now can construct a prior distribution for p based on the above information. One convenient method, described by Berger (1985), of specifying this probability distribution is the histogram approach. One breaks the space of possible values for p into sub intervals and then subjectively specifies likelihoods of the different subintervals. Suppose in this setting that the fan is certain that p lies in the interval (0, .11) and breaks the interval into 11 subintervals. After some thought, the fan specifies likelihoods of the different intervals, obtaining the prior distribution histogram in Figure 1. Note that the subinterval of highest likelihood is (.04, .05), indicating that the fan expects some improvement in Mitchell's home run rate from previous years. However, there is a good amount of uncertainty about the 1989 rate, since the fan places significant likelihood in values as small as .01 and as large as .1. (For reference, Babe Ruth in his best year (1927) had a home run rate of .11.)
Next, suppose that the season begins and the fan observes Mitchell's hitting performance in the first 10 games. Out of 44 official at-bats, he hits four home runs; the home run rate for these games is 4/44 = .091. How do these data modify the fan's prior opinions about Mitchell's 1989 season performance?
It is easy to simulate the posterior distribution of p using the SIR algorithm described in Section 1. Figure 2 illustrates the three steps of the algorithm for a small number (50) of simulated values. First, the bottom group of points represents a sample from the prior distribution. This sample is easily generated for the above prior histogram using MINITAB commands. The 'discrete' subcommand of 'random' chooses an interval at random in the histogram and the 'uniform' subcommand of 'random' randomly chooses a point inside the interval. Next, we assign to each point in the prior sample a weight proportional to the likelihood. In our example, if we assume that the plate appearances of Mitchell are independent with constant probability p of hitting a home run at each at-bat, then the likelihood of p for the observed data is L( p ) = p 4 ( l - p )40 , 0 < p < 1. The middle group of points represent the prior sample with the point sizes proportional to the likelihood values.
Note that the three rightmost points of the prior sample are given the largest likelihood weights. Finally, we take a sample of size 50 with replacement from the prior sample with assigned probabilities proportional to the weights (using the MINITAB 'discrete' subcommand).
The top group of points represent the resulting sample from the posterior distribution.
The preceding sample of 50 was chosen for illustrative purposes. In the following, we use MINITAB to simulate a larger posterior sample of size 500 by the SIR algorithm. The MINITAB macros that were used in this example are listed in the Appendix. In the macro, the column 'prior' contains the simulated values from the prior histogram and the column 'post' contains the simulated values from the posterior. The MINITAB 'dotplot' command is used to give parallel graphs of the two simulated samples presented in Figure 3 on the previous page. The means of the prior and posterior samples are given by .0482 and .0545, and the standard deviations of the two samples are approximately equal. From this information and the dotplots, the posterior density appears to shift the prior density a distance of .007 to the right. This indicates that Mitchell's home run performance during the first 10 games is greater than the performance reflected by the prior distribution.
From this posterior sample, it is easy to make many inferences. For example, when talking about home run rates, baseball statisticians like to talk about the number of at-bats to hit one home run = lip. A simulated sample from the posterior distribution of lip can be obtained by a reciprocal transformation of the posterior sample in the column 'post.' Figure
1 . ตัวอย่าง3.1 การประเมินของเควินมิตเชลล์บ้านวิ่งเท่ากันใน 1989สมมติว่าเวลามีนาคม 1989 และเป็นแฟนทีมเบสบอลเป็นที่สนใจในการประมาณของเควินมิตเชลล์บ้านวิ่งผลผลิตสำหรับ 1989 เบสบอลฤดูกาล เราว่า กฟน. องโฮมรันการผลิตโดย P , ความน่าจะเป็นที่มิทเชลตีโฮมรัน ในระหว่างทาง ค้างคาว ( จานลักษณะ ) 1989 ฤดูกาลเบสบอลยังไม่เริ่ม แต่มิเชลได้เล่นให้กับยักษ์ใหญ่ 3 ฤดูกาลด้วยสถิติโฮมรันให้ตารางที่ 1 เบสบอลพัดลมคาดหวังที่มีผลผลิตจะคล้ายกับที่ก่อนหน้านี้สามฤดูกาล อย่างไรก็ตาม แฟนรู้ ( จากการอ่านข่าวหนังสือพิมพ์ ) ที่มิเชลถูกตีปกติดีในช่วงปี 1989 ฝึกอบรมฤดูใบไม้ผลิเกม นอกจากนี้ ผู้เล่นมักจะกลายเป็นความเชี่ยวชาญมากขึ้นในการกดปุ่มตามที่เขาเติบโตเป็นสันนิบาตครั้งใหญ่ จึงมีความเชื่อว่า มิเชล โฮมรันของผลผลิตจะมากกว่าที่ระบุในอดีตเมเจอร์ลีก )แฟนเบสบอลตอนนี้สามารถสร้างการกระจายก่อนสำหรับ P ตามข้อมูลข้างต้น ที่สะดวกวิธีหนึ่ง อธิบาย โดย Berger ( 1985 ) , การระบุนี้เป็นกราฟการแจกแจงความน่าจะเป็น ทฤษฎี หนึ่งแบ่งพื้นที่ของค่าที่เป็นไปได้สำหรับจุดในช่วงเวลาย่อยองแล้วอย่างระบุ likelihoods ของ subintervals แตกต่างกัน สมมติว่าในการตั้งค่านี้ว่าแฟนเป็นบางอย่างที่พีอยู่ในช่วง ( 0 , 11 ) และแบ่งช่วงเวลาออกเป็น 11 subintervals . หลังจากที่คิดว่า แฟนระบุ likelihoods ของช่วงเวลาที่แตกต่างกันได้รับกราฟการแจกแจงก่อน ในรูปที่ 1 โปรดทราบว่า subinterval ของความน่าจะเป็นสูงสุด ( . 01 , . 05 ) แสดงว่าพัดลมคาดว่าการปรับปรุงบางอย่างใน Mitchell บ้านเรียกคะแนนจากปีก่อนหน้า อย่างไรก็ตาม มีจำนวนเงินที่ดีของความไม่แน่นอนเกี่ยวกับ 1989 เท่ากัน เนื่องจากพัดลมโอกาสสถานที่สำคัญในค่าเล็กน้อย . 01 และมีขนาดใหญ่เป็น 1 . ( อ้างอิง Babe Ruth ในปีที่ดีที่สุดของเขา ( 1927 ) มีบ้านวิ่งอัตรา 11 )ต่อไป สมมติว่าฤดูกาลเริ่มต้นกับพัดลมที่มีประสิทธิภาพในสังเกตตี 10 เกมแรก จาก 44 อย่างเป็นทางการที่ค้างคาว เขาฮิตสี่วิ่งกลับบ้าน ; อัตราทีเด็ดของเกมเหล่านี้คือ 4 / 44 = . 091 . วิธีทําข้อมูลเหล่านี้ปรับเปลี่ยนเป็นแฟนก่อนที่ความคิดเห็นเกี่ยวกับ Mitchell 1989 ฤดูการแสดงมันเป็นเรื่องง่ายเพื่อจำลองการกระจายของ P ใช้ครับขั้นตอนวิธีที่อธิบายไว้ในมาตรา 1 รูปที่ 2 แสดงให้เห็นถึงสามขั้นตอนของขั้นตอนวิธีสำหรับจำนวนขนาดเล็ก ( 50 ) ค่าจำลอง แรก กลุ่มล่างของจุดแสดงถึงตัวอย่างจากการแจกแจงก่อน ตัวอย่างนี้สามารถสร้างกราฟโดยใช้คำสั่งข้างต้นก่อน Photoshop ได้ subcommand " ต่อเนื่อง " " สุ่ม " เลือกช่วงเวลาที่สุ่มใน histogram และ " ชุดนักเรียน " ของ " " subcommand สุ่มสุ่มเลือกจุดภายในช่วง ต่อไปเรามอบหมายให้แต่ละจุดในตัวอย่างก่อนน้ำหนักเป็นสัดส่วนกับความน่าจะเป็น ในตัวอย่างของเรา ถ้าเราคิดว่าจานนัดของมิทเชลเป็นอิสระกับความน่าจะเป็นคงที่ P ตีโฮมรันได้ในแต่ละที่ค้างคาวแล้วโอกาสของ P จากข้อมูลคือ L ( p ) = p 4 ( l - P ) 40 , 0 < p < 1 จุดตรงกลางกลุ่มแสดงตัวอย่างก่อนกับจุดขนาดสัดส่วนโอกาสค่าสังเกตว่าสามตำแหน่งจุดตัวอย่างก่อนที่จะได้รับที่ใหญ่ที่สุดน้ำหนักความน่าจะเป็น สุดท้าย เราเอาตัวอย่างของขนาด 50 แทน จากตัวอย่างเดิม ด้วยกำหนดความน่าจะเป็นเป็นสัดส่วนกับน้ำหนัก ( ใช้เพลง " ต่อเนื่อง " subcommand )จุดด้านบนสุดของกลุ่มที่เป็นตัวแทนของตัวอย่างที่เกิดจากการส่วนหลังก่อนหน้านี้จำนวน 50 ถูกเลือกสำหรับวัตถุประสงค์มิใช่ . ในต่อไปนี้เราใช้ Photoshop เพื่อจำลองขนาดใหญ่ด้านหลังใช้ขนาด 500 ด้วยครับขั้นตอนวิธี ส่วนโปรแกรมแมโครที่ใช้ในตัวอย่างนี้มีการระบุไว้ในภาคผนวก ในแมโครคอลัมน์ " ก่อน " มีการจำลองค่าจากก่อนที่ histogram และคอลัมน์ " โพสต์ " มีการจำลองค่าจากด้านหลัง ในเพลง " " dotplot สั่งใช้ให้ขนานกราฟของทั้งสองตัวอย่างแสดงในรูปที่ 3 ) ในหน้าก่อนหน้า ความหมายของก่อนแล้วและตัวอย่างจะได้รับโดย 0482 และ . 0545 และส่วนเบี่ยงเบนมาตรฐานของทั้งสองตัวอย่างมีขนาดประมาณเท่ากับ จากข้อมูลนี้ และ dotplots , ความหนาแน่นและความหนาแน่นปรากฏที่จะเปลี่ยนก่อนระยะ 007 ไปทางขวา นี้บ่งชี้ว่า มิตเชลคือบ้านวิ่งงานใน 10 เกมแรกมากกว่าการแสดงผล โดยการกระจายก่อนจากตัวอย่างหลังนี้ มันเป็นเรื่องง่ายที่จะทำให้หลายคนใช้ . ตัวอย่างเช่น เมื่อพูดถึงราคาบ้านวิ่ง สถิติเบสบอลต้องการที่จะพูดคุยเกี่ยวกับจำนวนที่ค้างคาวตีโฮมรัน = ปาก จำลองจากตัวอย่างการแจกแจงด้านหลังของปากได้ โดยการเปลี่ยนแปลงกฎของตัวอย่างด้านหลังในคอลัมน์ " " รูป
การแปล กรุณารอสักครู่..
