Chapter 1. Bootstrap Method1 Introduction1.1 The Practice of Statistic การแปล - Chapter 1. Bootstrap Method1 Introduction1.1 The Practice of Statistic ไทย วิธีการพูด

Chapter 1. Bootstrap Method1 Introd

Chapter 1. Bootstrap Method
1 Introduction
1.1 The Practice of Statistics
Statistics is the science of learning from experience, especially experience that arrives a little
bit at a time. Most people are not natural-born statisticians. Left to our own devices we are
not very good at picking out patterns from a sea of noisy data. To put it another way, we all
are too good at picking out non-existent patterns that happen to suit our purposes? Statistical
theory attacks the problem from both ends. It provides optimal methods for finding a real
signal in a noisy background, and also provides strict checks against the overinterpretation
of random patterns.
Statistical theory attempts to answer three basic questions:
1. Data Collection: How should I collect my data?
2. Summary: How should I analyze and summarize the data that I’ve collected?
3. Statistical Inference: How accurate are my data summaries?
The bootstrap is a recently developed technique for making certain kinds of statistical inferences.
It is only recently developed because it requires modern computer power to simplify
the often intricate calculations of traditional statistical theory.
1.2 Motivated Example
We now illustrate the just mentioned three basic statistical concepts using a front-page news
from the New York Times of January 27, 1987. A study was done to see if small aspirin
doses would prevent heart attacks in healthy middle-aged men. The data for the aspirin
study were collected in a particularly efficient way: by a controlled, randomized, doubleblind
study. One half of the subjects received aspirin and the other half received a control
substance, or placebo, with no active ingredients. The subjects were randomly assigned to
the aspirin or placebo groups. Both the subjects and the supervising physicians were blind to
the assignments, with the statisticians keeping a secret code of who received which substance.
Scientists, like everyone else, want the subject they are working on to succeed. The elaborate
precautions of a controlled, randomized, blinded experiment guard against seeing benefits
that don’t exist, while maximizing the chance of detecting a genuine positive effect.
2
The summary statistics in the study are very simple:
heart attacks (fatal plus non-fatal) subjects
aspirin group: 104 11,037
placebo group: 189 11,034
What strikes the eye here is the lower rate of heart attacks in the aspirin group. The
ratio of the two rates is
ˆθ =
104/11037
189/11034
= 0.55.
It suggests that the aspirin-takers only have 55% as many as heart attacks as placebo-takers.
Of course we are not interested in ˆθ. What we would like to know is θ, the true ratio,
that is the ratio we would see if we could treat all subjects, and not just a sample of them.
The tough question is how do we know that ˆθ might not come out much less favorably if the
experiment were run again?
This is where statistical inference comes in. Statistical theory allows us to make the
following inference: the true value of θ lies in the interval 0.43 < θ < 0.70 with 95% confidence.
Note that
θ = ˆθ + (θ − ˆθ) = 0.55 + [θ − ˆθ(ω0)],
where θ and ˆθ(ω0) (= 0.55) are two numbers. In statistics, we use θ − ˆθ(ω) to describe
θ − ˆθ(ω0). Since ω cannot be observed exactly, we instead study the fluctuation of θ − ˆθ(ω)
among all ω. If, for most ω, θ − ˆθ(ω) is around zero, we can conclude statistically that θ is
close to 0.55 (= ˆθ(ω0). (Recall the definition of consistency.) If P(ω : |θ− ˆθ(ω)| < 0.1) = 0.95,
we claim that with 95% confidence that θ − 0.55 is no more than 0.1.
In the aspirin study, it also track strokes. The results are presented as the following:
strokes subjects
aspirin group: 119 11,037
placebo group: 98 11,034
For strokes, the ratio of the two rates is
ˆθ =
119/11037
98/11034
= 1.21.
It now looks like taking aspirin is actually harmful. However, the interval for the true stroke
ratio θ turns out to be 0.93 < θ < 1.59 with 95% confidence. This includes the neutral
value θ = 1, at which aspirin would be no better or worse than placebo. In the language of
statistical hypothesis testing, aspirin was found to be significantly beneficial for preventing
heart attacks, but not significantly harmful for causing strokes.
In the above discussion, we use the sampling distribution of ˆθ(ω) to develop intervals
in which the true value of θ lies on with a high confidence level. The task of data analyst
3
is to find the sampling distribution of the chosen estimator ˆθ. Turn it into practice, we are
quite often on finding right statistical table to look up.
Quite often, these tables are constructed based on the model-based sampling theory
approach to statistical inference. In this approach, it starts with the assumption that the data
arise as a sample from some conceptual probability distribution, f. When f is completely
specified, we derive the distribution of ˆθ. Recall that ˆθ is a function of the observed data. In
deriving its distribution, those data will be viewed as random variables (why??). Uncertainties
of our inferences can then be measured. The traditional parametric inference utilizes a
priori assumptions about the shape of f. For the above example, we rely on the binomial
distribution, large sample approximation of the binomial distribution, and the estimate of θ.
However, we sometimes need to figure out f intelligently. Consider a sample of weights
of 27 rats (n = 27); the data are
57, 60, 52, 49, 56, 46, 51, 63, 49, 57, 59, 54, 56, 59, 57, 52, 52, 61, 59, 53, 59, 51, 51, 56, 58, 46, 53.
The sample mean of these data = 54.6667, standard deviation = 4.5064 with cv = 0.0824.
For illustration, what if we wanted an estimate of the standard error of cv. Clearly, this would
be a nonstandard problem. First, we may need to start with a parametric assumption on f.
(How will you do it?) We may construct a nonparametric f estimator of (in essence) from
the sample data. Then we can invoke either Monte Carlo method or large sample method to
give an approximation on it.
Here, we will provide an alternative to the above approach. Consider the following
nonparametric bootstrap method which relies on the empirical distribution function. As a
demonstration, we apply the bootstrap method works to the stroke example.
1. Create two populations: the first consisting of 119 ones and 11037 − 119 = 10918
zeros, and the second consisting of 98 ones and 11034 − 98 = 10936 zeros.
2. (Monte Carlo Resampling) Draw with replacement a sample of 11037 items from
the first population, and a sample of 11034 items from the second population.
Each of these is called a bootstrap sample.
3. Derive the bootstrap replicate of ˆθ:
ˆθ
∗ =
prop. of ones in bootstrap sample #1
prop. of ones in bootstrap sample #2.
4. Repeat this process (1-3) a large number of times, say 1000 times, and obtain 1000
bootstrap replicates ˆθ

.
As an illustration, the standard deviation turned out to be 0.17 in a batch of 1000 replicates
that we generated. Also a rough 95% confidence interval is (0.93, 1.60) which is derived by
taking the 25th and 975th largest of the 1000 replicates.
4
Remark:
1. Initiated by Efron in 1979, the basic bootstrap approach uses
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
บทที่ 1 วิธีการเริ่มต้นระบบบทนำ 11.1 แบบฝึกหัดสถิติสถิติเป็นศาสตร์เรียนรู้จากประสบการณ์ โดยเฉพาะอย่างยิ่งประสบการณ์ที่มาถึงเล็กน้อยบิตที่ คนส่วนใหญ่ไม่เกิดธรรมชาติ statisticians ซ้ายกับอุปกรณ์ของเราเองเราเป็นไม่ดีมากที่เลือกออกลวดลายทะเลข้อมูลคะ เพื่อให้เป็นอีกทางหนึ่ง เราทั้งหมดใจดีเกินไปที่เลือกออกลวดลายไม่มีอยู่ที่เกิดขึ้นเพื่อให้เหมาะกับวัตถุประสงค์ของเราหรือไม่ ทางสถิติทฤษฎีโจมตีปัญหาจากทั้งสอง มันมีวิธีเหมาะสมที่สุดสำหรับการค้นหาความจริงสัญญาณในพื้นหลังเสียงดัง และยัง มีการตรวจสอบเข้มงวดกับการ overinterpretationของรูปแบบสุ่มทฤษฎีทางสถิติพยายามตอบคำถามพื้นฐาน 3:1. ข้อมูลชุด: วิธีควรฉันรวบรวมข้อมูลของฉัน2. สรุป: วิธีควรฉันวิเคราะห์ และสรุปข้อมูลที่ผมได้เก็บรวบรวม3. ข้อสถิติ: วิธีที่ถูกต้องจะสรุปข้อมูลของฉันBootstrap เทคนิคพัฒนาล่าสุดทำสถิติ inferences บางชนิดได้เฉพาะเมื่อเร็ว ๆ นี้พัฒนาได้เนื่องจากต้องการอำนาจคอมพิวเตอร์ที่ทันสมัยง่ายการคำนวณมักจะซับซ้อนของทฤษฎีทางสถิติดั้งเดิม1.2 ตัวอย่างที่แรงจูงใจตอนนี้เราแสดงกล่าวเพียงสามสถิติแนวคิดพื้นฐานโดยใช้ข่าวสาร front-pageจากเดอะนิวยอร์กไทมส์ของ 27 มกราคม 1987 ทำการศึกษาเพื่อดูว่าเล็กแอสไพรินปริมาณจะป้องกันการโจมตีหัวใจในผู้ชายวัยกลางคนที่มีสุขภาพดี ข้อมูลสำหรับแอสไพรินศึกษาได้รวบรวมวิธีที่มีประสิทธิภาพโดยเฉพาะอย่างยิ่ง: โดย doubleblind ควบคุม randomizedศึกษา ครึ่งหนึ่งของแอสไพรินได้รับเรื่องและอีก ครึ่งหนึ่งได้รับตัวควบคุมสาร หรือยาหลอก ด้วยส่วนผสมที่ใช้งานไม่ หัวข้อถูกสุ่มให้กลุ่มแอสไพรินหรือยาหลอก หัวข้อและแพทย์ควบคุมได้ตาบอดไปที่กำหนด statisticians รักษารหัสลับของผู้รับสารที่นักวิทยาศาสตร์ เช่นคนอื่น ต้องเรื่องที่พวกเขากำลังทำงานอยู่จะประสบความสำเร็จ ประณีตข้อควรปฏิบัติการทดลองควบคุม randomized มองไม่เห็นรักษาเห็นประโยชน์ที่ไม่มีอยู่ ในขณะที่เพิ่มโอกาสการตรวจเป็นผลบวกของแท้2สรุปสถิติในการศึกษาเป็นอย่างมาก:เรื่องโจมตีหัวใจ (ร้ายแรง และไม่ร้ายแรง)กลุ่มแอสไพริน: 104 11,037กลุ่มยาหลอก: 189 11,034อะไรนัดตานี่เป็นอัตราต่ำกว่าการโจมตีหัวใจในกลุ่มแอสไพริน ที่อัตราส่วนของราคาสองคือˆΘ =104/11037189/11034= 0.55แนะนำว่า ผู้ทำแอสไพรินได้ 55% มากโจมตีหัวใจเป็นยาหลอกผู้ทำเฉพาะแน่นอนเราจะไม่สนใจˆθ สิ่งที่เราต้องการทราบคือ θ อัตราส่วนจริงนั่นคืออัตราส่วนที่เราจะดูว่าเราสามารถเก็บเรื่องทั้งหมด และไม่เพียงอย่างนั้นคำถามที่ยากคือ เรารู้ได้อย่างไรว่าˆθอาจไม่ออกมามากน้อยพ้องต้องถ้าการทดลองเรียกใช้ได้อีกหรือไม่ที่ข้อสถิติมาได้ ทฤษฎีทางสถิติช่วยให้เราทำการข้อต่อไปนี้: คุณค่าแท้จริงของθอยู่ในช่วง 0.43 < θ < 0.70 มีความเชื่อมั่น 95%หมายเหตุว่าΘ =ˆΘ + (Θ−ˆΘ) = 0.55 + [Θ− ˆΘ(Ω0)],ที่θและ ˆθ(ω0) (= 0.55) เป็นหมายเลขสอง สถิติ เราใช้θ−ˆθ(ω)เพื่ออธิบายΘ− ˆΘ(Ω0) เพราะωไม่ได้สังเกตว่า เราแทนศึกษาความผันผวนของθ−ˆθ(ω)ระหว่างωทั้งหมด ถ้า สำหรับส่วนใหญ่ω θ−ˆθ(ω)เป็นศูนย์ เราสามารถสรุปทางสถิติว่าθคือใกล้ 0.55 (= ˆθ(ω0) (นึกคำจำกัดความของความสอดคล้อง) ถ้า P (ω: |θ−ˆθ (ω) | < 0.1) = 0.95เราอ้างว่า มีความเชื่อมั่น 95% ที่−θ 0.55 คือ ไม่เกิน 0.1ในการศึกษาแอสไพริน มันยังติดตามจังหวะ มีแสดงผลลัพธ์ต่อไปนี้:เรื่องจังหวะกลุ่มแอสไพริน: 119 11,037กลุ่มยาหลอก: 98 11,034จังหวะ อัตราส่วนของราคาสองคือˆΘ =119/1103798/11034= 1.21ตอนนี้ดูเหมือนใช้แอสไพรินเป็นอันตรายจริง อย่างไรก็ตาม ช่วงเวลาในจังหวะจริงอัตราส่วนθเปิดออกจะ 0.93 < θ < 1.59 มีความเชื่อมั่น 95% รวมถึงเป็นกลางค่าθ = 1 ที่ว่าแอสไพรินจะไม่ดีกว่า หรือแย่กว่ายาหลอก ในภาษาของพบสถิติสมมติฐานทดสอบ แอสไพรินมีประโยชน์อย่างมากสำหรับการป้องกันห้องพักทั้งโจมตี แต่ไม่เป็นอันตรายอย่างมากก่อให้เกิดจังหวะในการอภิปรายข้างต้น เราใช้การแจกแจงการสุ่มตัวอย่างของˆθ(ω)เพื่อพัฒนาช่วงที่จริงค่าของθอยู่บน ด้วยความมั่นใจสูงระดับ งานของนักวิเคราะห์ข้อมูล3คือการ หาการกระจายการสุ่มตัวอย่างของˆθประมาณท่าน เปิดสู่การปฏิบัติ เราค่อนข้างบ่อยในการค้นหาตารางทางสถิติเพื่อค้นหาค่อนข้างบ่อย ตารางเหล่านี้ถูกสร้างขึ้นตามทฤษฎีการสุ่มตัวอย่างตามรูปวิธีการทางสถิติข้อ ในวิธีการนี้ มันเริ่มต้น ด้วยสมมติฐานที่ข้อมูลเกิดขึ้นเป็นตัวอย่างจากบางแนวคิดความน่าเป็นการกระจาย f เมื่อ f มีทั้งหมดระบุ เรามาแจกของˆθ เรียกคืนˆθที่เป็นฟังก์ชันของข้อมูลที่พบ ในบริษัทฯ แจกของ ข้อมูลเหล่านั้นจะดูเป็นตัวแปรสุ่ม (ทำไม??) ความไม่แน่นอนของ inferences เราสามารถแล้วจะวัด ข้อพาราเมตริกแบบดั้งเดิมที่ใช้การสมมติฐานแรกสุดเกี่ยวกับรูปร่างของ f สำหรับตัวอย่างข้างต้น เราอาศัยทวินามกระจาย ประมาณตัวอย่างขนาดใหญ่ของการแจกแจงทวินาม และการประเมินของθอย่างไรก็ตาม เราบางครั้งต้องหา f อย่างชาญฉลาด พิจารณาตัวอย่างของน้ำหนักของหนู 27 (n = 27); ข้อมูลมี57, 60, 52, 49, 56, 46, 51, 63, 49, 57, 59, 54, 56, 59, 57, 52, 52, 61, 59, 53, 59, 51, 51, 56, 58, 46, 53หมายความว่าตัวอย่างของข้อมูลเหล่านี้ = 54.6667 ค่าส่วนเบี่ยงเบนมาตรฐาน = 4.5064 กับ cv = 0.0824สำหรับภาพประกอบ ถ้าเราต้องการประเมินข้อผิดพลาดมาตรฐานของพันธุ์ชัดเจน นี้จะมีปัญหาเกือบ ครั้งแรก เราอาจต้องเริ่มต้น ด้วยสมมติฐานแบบพาราเมตริกใน f(ว่าจะคุณ) เราอาจสร้างประมาณ nonparametric f ของ (นั้ง) จากข้อมูลตัวอย่าง แล้ว เราสามารถเรียกมอน Carlo วิธีหรือวิธีตัวอย่างขนาดใหญ่ให้การประมาณการที่นี่ เราจะมีทางเลือกในแนวทางข้างต้น พิจารณาต่อไปนี้nonparametric เริ่มต้นระบบวิธีที่ใช้ฟังก์ชันการรวม เป็นการสาธิต เราใช้วิธีการเริ่มต้นระบบการทำงานกับตัวอย่างจังหวะ1. สร้างประชากรสอง: แรกประกอบด้วย 119 คน และ− 11037 119 = 10918ศูนย์ และอีก 98 คนประกอบด้วย− 11034 98 = 10936 และศูนย์2. (Carlo มอนเปลี่ยนความละเอียดของ) วาด ด้วยแทนที่เป็นตัวอย่างของสินค้า 11037ประชากรแรก และตัวอย่างของ 11034 รายการจากประชากรที่สองแต่ละเหล่านี้คือตัวอย่างการเริ่มต้นระบบ3. ได้รับการจำลองแบบของˆθที่มีการเริ่มต้นระบบ:ˆΘ∗ =prop ของคนในการเริ่มต้นระบบอย่าง #1prop ของคนในการเริ่มต้นระบบอย่าง #24. ทำซ้ำกระบวนการนี้ (1-3) มีเวลา บอกเวลา 1000 และรับ 1000bootstrap เหมือนกับˆθ∗.เป็นภาพประกอบ ส่วนเบี่ยงเบนมาตรฐาน 0.17 ใน 1000 ชุดให้เหมือนกับที่เราสร้างขึ้น นอกจากนี้ยัง มีช่วงความเชื่อมั่น 95% หยาบ (0.93, 1.60) ซึ่งได้มาโดย25 และ 975th ที่ใหญ่ที่สุด 1000 เหมือนกับ4หมายเหตุ:1. เริ่ม โดยเธอในปีค.ศ. 1979 วิธีการเริ่มต้นระบบพื้นฐานที่ใช้
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 2:[สำเนา]
คัดลอก!
บทที่ 1 เงินทุนวิธี
1 บทนำ
1.1
การปฏิบัติของสถิติสถิติเป็นวิทยาศาสตร์ของการเรียนรู้จากประสบการณ์ที่มีประสบการณ์โดยเฉพาะอย่างยิ่งที่มาถึงเพียงเล็กน้อยบิตในเวลา
คนส่วนใหญ่ไม่สถิติธรรมชาติเกิด ซ้ายไปยังอุปกรณ์ของเราเองเราจะไม่ดีมากที่เลือกออกจากทะเลรูปแบบของข้อมูลที่มีเสียงดัง
ที่จะนำมันอีกวิธีหนึ่งที่เราทุกคนเป็นสิ่งที่ดีเกินไปในการเลือกออกรูปแบบที่ไม่มีอยู่จริง ๆ ที่เกิดขึ้นเพื่อให้เหมาะกับวัตถุประสงค์ของเรา?
สถิติทฤษฎีโจมตีปัญหาจากปลายทั้งสอง
มันมีวิธีการที่ดีที่สุดสำหรับการค้นหาจริงสัญญาณในพื้นหลังที่มีเสียงดังและยังมีการตรวจสอบที่เข้มงวดกับ overinterpretation ของรูปแบบการสุ่ม. ทฤษฎีทางสถิติพยายามที่จะตอบคำถามพื้นฐานสาม: 1 การเก็บรวบรวมข้อมูล: ฉันควรจะเก็บรวบรวมข้อมูลของฉันได้อย่างไร2 สรุป: ฉันควรวิเคราะห์และสรุปข้อมูลที่ผมได้รวบรวม? 3 สถิติอนุมาน: วิธีที่ถูกต้องสรุปข้อมูลของฉัน. โดยบูตเป็นเทคนิคที่พัฒนาขึ้นเมื่อเร็ว ๆ นี้สำหรับการทำบางชนิดของการหาข้อสรุปทางสถิติคือการพัฒนาเมื่อเร็วๆ นี้เพราะต้องใช้พลังงานของคอมพิวเตอร์ที่ทันสมัยเพื่อลดความซับซ้อนของการคำนวณที่ซับซ้อนมักจะของทฤษฎีทางสถิติแบบดั้งเดิม. 1.2 แรงจูงใจตัวอย่างตอนนี้เราแสดงให้เห็นถึงกล่าวถึงเพียงสามแนวคิดทางสถิติขั้นพื้นฐานโดยใช้ข่าวหน้าหนึ่งจากนิวยอร์กไทม์สของวันที่ 27 มกราคม 1987 การศึกษาได้ทำเพื่อดูว่ายาแอสไพรินขนาดเล็กปริมาณที่จะป้องกันไม่ให้โรคหัวใจในผู้ชายวัยกลางคนที่มีสุขภาพดี ข้อมูลสำหรับแอสไพรินการศึกษาถูกเก็บไว้ในวิธีที่มีประสิทธิภาพโดยเฉพาะอย่างยิ่ง: โดยการควบคุมแบบสุ่ม doubleblind ศึกษา ครึ่งหนึ่งของอาสาสมัครที่ได้รับยาแอสไพรินและอีกครึ่งหนึ่งได้รับการควบคุมสารเคมีหรือยาหลอกมีส่วนผสมที่ใช้งานไม่ได้ กลุ่มตัวอย่างถูกสุ่มให้กลุ่มแอสไพรินหรือยาหลอก ทั้งอาสาสมัครและแพทย์ดูแลคนตาบอดที่จะได้รับมอบหมายโดยมีสถิติรักษารหัสลับของผู้ที่ได้รับสารที่. นักวิทยาศาสตร์เหมือนคนอื่น ๆ ต้องการเรื่องที่พวกเขากำลังทำงานอยู่จะประสบความสำเร็จ ประณีตข้อควรระวังของการควบคุมแบบสุ่มยามทดลองตาบอดกับผลประโยชน์ที่เห็น. ที่ไม่อยู่ขณะที่การเพิ่มโอกาสของการตรวจสอบผลบวกของแท้2 สถิติสรุปในการศึกษามีความเรียบง่ายมาก: โรคหัวใจ (ไม่ร้ายแรงบวก ร้ายแรง) วิชากลุ่มแอสไพริน: 104 11037 กลุ่มยาหลอก: 189 11,034 สิ่งที่นัดตานี่เป็นอัตราที่ต่ำกว่าของโรคหัวใจในกลุ่มแอสไพริน อัตราส่วนของทั้งสองอัตราคือθ = 104/11037 189/11034 = 0.55. มันแสดงให้เห็นว่ายาแอสไพรินผู้รับมีเพียง 55% มากที่สุดเท่าที่เป็นโรคหัวใจได้รับยาหลอกผู้รับ. แน่นอนว่าเราจะไม่สนใจในθ สิ่งที่เราอยากจะรู้ว่าเป็นθอัตราส่วนที่แท้จริงว่าเป็นอัตราส่วนที่เราจะดูว่าเราสามารถรักษาทุกวิชาและไม่เพียงตัวอย่างของพวกเขา. คำถามที่ยากคือทำอย่างไรเรารู้ว่าθอาจจะไม่ออกมามาก ที่แย่กว่าถ้า? ทดลองวิ่งอีกครั้งนี่คือที่อนุมานทางสถิติมาในทฤษฎีทางสถิติช่วยให้เราสามารถที่จะทำให้. ข้อสรุปต่อไปนี้:. มูลค่าที่แท้จริงของθอยู่ในช่วง 0.43 <θ <0.70 มีความเชื่อมั่น 95% ทราบว่าθ = θ + (θ - θ) = 0.55 + [θ - θ (ω0)] ที่θและθ (ω0) (= 0.55) เป็นสองหมายเลข ในสถิติที่เราใช้θ - θ (ω) เพื่ออธิบายθ - θ (ω0) ตั้งแต่ωไม่สามารถสังเกตเห็นว่าเราแทนศึกษาความผันผวนของθ - θ (ω) หมู่ωทั้งหมด ถ้าωที่สุดθ - θ (ω) เป็นรอบศูนย์เราสามารถสรุปสถิติθที่ใกล้เคียงกับ0.55 (θ = (ω0) (จำความหมายของความมั่นคง) หาก P (ω: | θ-θ.. (ω) | <0.1) = 0.95. เราอ้างว่ามีความเชื่อมั่น 95% ที่θ - 0.55 คือไม่เกิน 0.1. ในการศึกษาแอสไพรินก็ยังติดตามจังหวะผลลัพธ์ที่ได้จะนำเสนอต่อไปนี้: จังหวะวิชากลุ่มแอสไพริน: 119 11037 กลุ่มยาหลอก: 98 11034 สำหรับจังหวะอัตราส่วนของทั้งสองอัตราคือθ = 119/11037 98/11034 = 1.21. ตอนนี้ดูเหมือนว่ากินยาแอสไพรินเป็นอันตรายจริงอย่างไรก็ตามสำหรับช่วงจังหวะที่แท้จริง. อัตราส่วนθจะเปิดออก จะเป็น 0.93 <θ <1.59 มีความเชื่อมั่น 95%. ซึ่งรวมถึงการที่เป็นกลางθ value = 1, ที่แอสไพรินจะไม่มีดีกว่าหรือเลวร้ายยิ่งกว่ายาหลอก. ในภาษาของการทดสอบสมมติฐานทางสถิติแอสไพรินก็พบว่าจะมีความหมายที่เป็นประโยชน์ในการป้องกันโรคหัวใจ แต่ไม่ได้อย่างมีนัยสำคัญที่ก่อให้เกิดอันตรายต่อจังหวะ. ในการสนทนาข้างต้นเราจะใช้การกระจายตัวอย่างของθ (ω) เพื่อพัฒนาช่วงที่มูลค่าที่แท้จริงของθอยู่ในที่มีระดับความเชื่อมั่นสูง งานของการวิเคราะห์ข้อมูล3 คือการหาการกระจายการสุ่มตัวอย่างของθประมาณการได้รับการแต่งตั้ง ทำให้มันกลายเป็นทางปฏิบัติเรามีค่อนข้างบ่อยในการหาตารางสถิติสิทธิที่จะมองขึ้น. ค่อนข้างบ่อย, ตารางเหล่านี้ถูกสร้างขึ้นบนพื้นฐานของการสุ่มตัวอย่างแบบที่ใช้ทฤษฎีแนวทางการอนุมานทางสถิติ ในวิธีนี้จะเริ่มต้นด้วยสมมติฐานที่ว่าข้อมูลที่เกิดขึ้นเป็นตัวอย่างจากการกระจายความคิดบางฉ เมื่อฉสมบูรณ์ระบุเราได้กระจายของθ จำθที่เป็นฟังก์ชั่นของข้อมูลที่สังเกตได้ ในอันเกิดการกระจายของข้อมูลเหล่านั้นจะถูกมองว่าเป็นตัวแปรสุ่ม (ทำไม ??) ความไม่แน่นอนของการหาข้อสรุปของเรานั้นจะสามารถวัด ข้อสรุปตัวแปรแบบดั้งเดิมใช้สมมติฐานเบื้องต้นเกี่ยวกับรูปร่างของ f สำหรับตัวอย่างข้างต้นเราพึ่งพาทวินามกระจายประมาณตัวอย่างที่มีขนาดใหญ่ของการกระจายทวินามและประมาณการของθได้. แต่บางครั้งเราต้องคิดออกฉชาญฉลาด พิจารณาตัวอย่างของน้ำหนักของหนู 27 (n = 27); ข้อมูลที่มี57, 60, 52, 49, 56, 46, 51, 63, 49, 57, 59, 54, 56, 59, 57, 52, 52, 61, 59, 53, 59, 51, 51, 56 58, 46, 53 ตัวอย่างมีค่าเฉลี่ยของข้อมูลเหล่านี้ = 54.6667 ส่วนเบี่ยงเบนมาตรฐาน = 4.5064 กับพันธุ์ = 0.0824. ตัวอย่างสิ่งที่ถ้าเราต้องการที่ประมาณการของข้อผิดพลาดมาตรฐานพันธุ์ เห็นได้ชัดว่าเรื่องนี้จะเป็นปัญหาที่ไม่เป็นมาตรฐาน ครั้งแรกที่เราอาจจะต้องเริ่มต้นด้วยสมมติฐานตัวแปรใน f. (วิธีที่คุณจะทำมันได้หรือไม่) เราอาจจะสร้างประมาณฉอิงพารามิเตอร์ของ (ในสาระสำคัญ) จากข้อมูลตัวอย่าง แล้วเราสามารถเรียกใช้ทั้งวิธีมอนติคาร์โลหรือวิธีการตัวอย่างขนาดใหญ่เพื่อให้ใกล้เคียงกับมัน. ที่นี่เราจะให้ทางเลือกที่จะวิธีการดังกล่าวข้างต้น พิจารณาต่อไปนี้วิธีการบูตอิงพารามิเตอร์ซึ่งอาศัยฟังก์ชั่นการกระจายเชิงประจักษ์ ในฐานะที่เป็นสาธิตเราใช้วิธีการทำงานเพื่อบูตเช่นโรคหลอดเลือดสมอง. 1 สร้างสองประชากร: ครั้งแรกประกอบด้วย 119 คนและ 11037-119 = 10918 ศูนย์และที่สองประกอบด้วย 98 คนและ 11034-98 = 10936 ศูนย์. 2 (Monte Carlo resampling) วาดด้วยการเปลี่ยนตัวอย่างของ 11,037 รายการจากประชากรครั้งแรกและตัวอย่าง11,034 รายการจากประชากรที่สอง. แต่ละเหล่านี้จะเรียกว่าเป็นตัวอย่างบูต. 3 ได้รับมาทำซ้ำบูตของθ: θ * = เสา ของคนที่อยู่ในตัวอย่างบูต # 1 เสา ของคนที่อยู่ในตัวอย่างบูต # 2. 4 ทำซ้ำขั้นตอนนี้ (1-3) เป็นจำนวนมากของเวลาพูด 1000 ครั้งและได้รับ 1,000 บูตซ้ำθ *. เป็นภาพส่วนเบี่ยงเบนมาตรฐานเปิดออกมาเป็น 0.17 ในชุด 1000 การลอกเลียนแบบที่เราสร้างขึ้น นอกจากนี้หยาบช่วงความเชื่อมั่น 95% เป็น (0.93, 1.60) ซึ่งได้มาจากการที่25 และ 975 ที่ใหญ่ที่สุดของ 1000 ซ้ำ. 4 หมายเหตุ: 1 ริเริ่มโดยแอฟรอนในปี 1979 วิธีการบูตขั้นพื้นฐานใช้








































































































การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
บทที่ 1 บูตสแตรป

1 บทนำ 1.1 การปฏิบัติสถิติ
เป็นศาสตร์ของการเรียนรู้จากประสบการณ์ โดยเฉพาะประสบการณ์ที่เข้ามานิดนึง
ครั้ง คนส่วนใหญ่ไม่ได้เกิดมาเป็นสถิติ . ซ้ายไปยังอุปกรณ์ของตัวเองเรา
ไม่เก่งเลือกรูปแบบจากทะเลของข้อมูลดัง ใส่วิธีอื่น เราทั้งหมด
จะเก่งเลือกรูปแบบที่เกิดขึ้นเพื่อให้เหมาะกับวัตถุประสงค์ของเราที่ไม่มีอยู่จริง ? ทฤษฎีสถิติ
โจมตีปัญหาจากปลายทั้งสอง มันมีวิธีการที่เหมาะสมในการหาสัญญาณจริง
ในพื้นหลังที่มีเสียงดัง และยัง มีการตรวจสอบที่เข้มงวดกับ overinterpretation

พยายามรูปแบบสุ่ม ทฤษฎีทางสถิติที่จะตอบสามคำถามพื้นฐาน :
1 การเก็บรวบรวมข้อมูลฉันควรเก็บข้อมูลของฉัน ?
2 . สรุปแล้วผมควรวิเคราะห์และสรุปข้อมูลที่ผมรวบรวมได้ ?
3 สถิติอนุมาน : สรุปข้อมูล เป็นวิธีการที่ถูกต้องหรือไม่
เท่ากับเป็นเพิ่งพัฒนาเทคนิคสำหรับการบางประเภทของสถิติอนุมาน .
มันเป็นเพียงเมื่อเร็ว ๆนี้ได้รับการพัฒนาเพราะมันต้องการพลังคอมพิวเตอร์ที่ทันสมัยเพื่อลดความซับซ้อน
มักจะซับซ้อนการคำนวณทฤษฎีทางสถิติแบบดั้งเดิม มีตัวอย่าง

สำหรับตอนนี้เราแสดงให้เห็นถึงแค่กล่าวถึงสามแนวคิดพื้นฐานทางสถิติโดยใช้ข่าวหน้า
จากนิวยอร์กไทม์สของ 27 มกราคม 1987 การศึกษาทำเพื่อดูว่าปริมาณแอสไพริน
ขนาดเล็กจะป้องกันการโจมตีหัวใจในผู้ชายวัยกลางคน . ข้อมูลสำหรับแอสไพริน
การศึกษาครั้งนี้ในวิธีที่มีประสิทธิภาพโดยเฉพาะอย่างยิ่งโดยการควบคุมโดย doubleblind
ศึกษา ครึ่งหนึ่งของกลุ่มตัวอย่างได้รับแอสไพรินและอีกครึ่งหนึ่งได้รับการควบคุม
สาร หรือยาหลอก ไม่มีส่วนผสมที่ใช้งาน กลุ่มตัวอย่างแบบสุ่ม
แอสไพรินหรือกลุ่มยาหลอก ทั้งวิชาและผู้ช่วยแพทย์ตาบอด

ที่งานกับสถิติการรักษาความลับของรหัสที่ได้รับสารซึ่ง .
นักเหมือนคนอื่น อยากให้เรื่องที่พวกเขากำลังทำงานเพื่อความสำเร็จ ซับซ้อน
ข้อควรระวังของควบคุม โดยการทดลองกับตาบอดยามเห็นผลประโยชน์
ที่ไม่มีอยู่จริง ในขณะที่การเพิ่มโอกาสของการตรวจสอบของแท้มีผลบวก
2
.สรุปสถิติในการวิจัยคือง่ายมาก :
โรคหัวใจร้ายแรง ( บวกไม่ร้ายแรง ) กลุ่มแอสไพริน )
: 104 11037
กลุ่มยาหลอก : 189 การแจ้ง
สิ่งที่กัดตาที่นี่มีอัตราที่ลดลงของโรคหัวใจในกลุ่มแอสไพริน
อัตราส่วนของอัตราสองคือ =

ˆθ 104 / 189 / การแจ้ง 11037

= 0.55
มันบ่งบอกว่าแอสไพริน takers เพียง 55% มากเท่าที่หัวใจโจมตีเป็นยาหลอก takers .
แน่นอน เราไม่ได้สนใจในˆθ . สิ่งที่เราต้องการทราบคือθ , อัตราส่วนจริง
ที่อัตราส่วน จะเห็นว่าถ้าเราสามารถทำทุกวิชาและไม่เพียง แต่จำนวนของพวกเขา .
คำถามยากคือเราจะรู้ได้อย่างไรว่าˆθอาจไม่ได้ออกมาน้อยมาก ซึ่งถ้า
ทำการทดลองอีกครั้ง
นี่คือที่การอนุมานเชิงสถิติมา ทฤษฎีทางสถิติที่จะช่วยให้เราทำให้
ต่อไปนี้อนุมาน : มูลค่าที่แท้จริงของθอยู่ในช่วง 0.43 < θ < 0.70 กับความเชื่อมั่นร้อยละ 95 .
ทราบว่า
θ = ˆθ ( θ−ˆθ ) = 0.55 [ θ−ˆθ ( ω 0 ) ] ,
และที่θˆθ ( ω ( 0 ) = 0.55 ) เป็นหมายเลขสอง ในสถิติ เราใช้θ−ˆθ ( ω ) เพื่ออธิบาย
θ−ˆθ ( ω 0 ) ตั้งแต่ωไม่สามารถสังเกตได้ว่า เรา แทนการศึกษาความผันผวนของθ−ˆθ ( ω )
ในบรรดาω . ถ้า ωที่สุดθ−ˆθ ( ω ) เป็นรอบ ๆศูนย์ เราสามารถสรุปได้ว่าเป็นสถิติθ
ใกล้ˆθ ( ω = 0.55 ( 0 ) ( นึกถึงคำนิยามของความสอดคล้อง ) ถ้า p ( ω : | θ−ˆθ ( ω ) | < 0.1 ) = 0.95
เราอ้างว่ามีความเชื่อมั่นร้อยละ 95 ที่θ− 0.55 ไม่เกิน 0.1 .
ในแอสไพริน การศึกษาก็ยังติดตามจังหวะ ผลปรากฏดังนี้กลุ่มตัวอย่าง

ลายเส้นแอสไพรินกลุ่ม : 119 11037
กลุ่มยาหลอก :98 การแจ้ง
โบย , อัตราส่วนของอัตราสองคือ =

ˆθ 119 / 98 / การแจ้ง 11037


= 1.21 ตอนนี้ดูเหมือนว่าการใช้แอสไพรินเป็นจริงที่เป็นอันตราย อย่างไรก็ตาม ในช่วงจังหวะที่อัตราส่วนจริง
θกลับกลายเป็น 0.93 < θ < 1.59 95% ความเชื่อมั่น ซึ่งรวมถึงค่าเป็นกลาง
θ = 1 ที่แอสไพรินจะไม่ดีกว่าหรือแย่กว่ายาหลอก ในภาษาของ
การทดสอบสมมติฐานทางสถิติแอสไพรินพบประโยชน์ในการป้องกัน
การโจมตีหัวใจ แต่ไม่พบอันตรายที่ทำให้จังหวะ .
ในการอภิปรายข้างต้น เราใช้ตัวอย่างการกระจายของˆθ ( ω ) พัฒนาช่วงเวลา
ที่มูลค่าที่แท้จริงของθอยู่ด้วยระดับความเชื่อมั่นสูง งานของนักวิเคราะห์ข้อมูล
3
คือหาตัวอย่างการเลือกตัวˆθ .ปิดมันลงในการปฏิบัติ เราค่อนข้างบ่อยในการหาขวา

ตารางสถิติดู ค่อนข้างบ่อย , ตารางเหล่านี้ถูกสร้างขึ้นบนพื้นฐานของทฤษฎีการสุ่มตัวอย่างสำหรับ
วิธีการสถิติ ในวิธีการนี้ มันเริ่มต้นด้วยสมมติฐานที่ว่าข้อมูล
เกิดขึ้นเป็นบางตัวอย่างจากแนวคิดของความน่าจะเป็น f , F . เมื่อเรียบร้อย
ที่ระบุไว้เราได้รับการˆθ . จำได้ว่าˆθเป็นฟังก์ชันของข้อมูล . ที่ได้รับการกระจายใน
ข้อมูลเหล่านั้นจะถูกมองว่าเป็นตัวแปรสุ่ม ( ทำไม ? ? ) ความไม่แน่นอน
ของอนุมานแล้วสามารถวัดได้ การอนุมานเชิงดั้งเดิมใช้
priori สมมติฐานเกี่ยวกับรูปร่างของ F . สำหรับตัวอย่างข้างต้น เราอาศัยการแจกแจงทวินาม
,การประมาณขนาดตัวอย่างของการแจกแจงทวินามและประมาณการของθ .
แต่บางครั้งเราต้องคิดออก F อย่างชาญฉลาด พิจารณาตัวอย่างของน้ำหนัก
27 หนู ( n = 27 ) ; ข้อมูล
57 , 60 , 47 , 49 , 56 , 46 , 51 , 63 , 49 , 56 , 59 , 54 , 56 , 59 , 57 , 52 , 52 , 61 , 59 , 53 , 58 , 51 , 51 , 56 , 58 , 46 , 53 .
ตัวอย่างค่าเฉลี่ยของข้อมูล = 54.6667 , ส่วนเบี่ยงเบนมาตรฐาน = 4.5064 กับ CV =
0.0824 .สำหรับภาพประกอบ ถ้าเราต้องการประมาณการของความคลาดเคลื่อนมาตรฐานของพันธุ์ เห็นได้ชัดว่า นี่จะเป็นปัญหาเชิง
. ครั้งแรก เราอาจจะต้องเริ่มต้นด้วยสมมติฐานพารามิเตอร์ใน F .
( วิธีที่คุณจะทำ ? ) เราอาจสร้างตัว F ประมาณ ( ในสาระสำคัญ ) จาก
ข้อมูลตัวอย่าง แล้วเราสามารถเรียกทั้งวิธีมอนติคาร์โลวิธีการหรือตัวอย่างใหญ่

ให้ประมาณนั้น
ที่นี่เลยเราจะให้ทางเลือกกับวิธีการข้างต้น พิจารณาวิธีบูตสแตรป ซึ่งอาศัยฟังก์ชันการแจกแจงเชิงประจักษ์ตาม

โดย
สาธิต เราใช้บูตสแตรปางจังหวะตัวอย่าง .
1 สร้างสองประชากร : 1 ประกอบด้วย 119 คน และ 11037 − 1 = 10918
ศูนย์และสองจำนวน 98 คน และการแจ้ง 10936 98 = − 0 .
2 ( มอนติ คาร์โลสุ่มซ้ำ ) วาดแทน ตัวอย่างของรายการจาก 11037
ประชากรก่อนและตัวอย่างการแจ้งรายการจากประชากร 2 .
แต่ละเหล่านี้เรียกว่าบูตัวอย่าง .
3 รับสร้างบูทของˆθ :

=
ˆθ∗ prop หนึ่งในตัวอย่างของบูท# 1
prop หนึ่งในตัวอย่าง#ประ 2
4 ทำซ้ำกระบวนการนี้ ( 1-3 ) จำนวนครั้ง ซัก 1000 ครั้ง และได้รับ 1000

∗บูทแบบˆθ
.
ภาพประกอบส่วนเบี่ยงเบนมาตรฐานเป็น 0.17 ในชุดของ 1 , 000 ซ้ำ
ที่เราสร้างขึ้น ยังหยาบช่วงความเชื่อมั่น 95% ( 0.93 , 1.60 ) ซึ่งได้มาโดยการ 975th 25
และใหญ่ที่สุดของ 1 , 000 ซ้ำ .
4
หมายเหตุ :
1ริเริ่มโดย แอฟรอนใน 1979 , วิธีบูตสแตรปใช้พื้นฐาน
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2024 I Love Translation. All reserved.

E-mail: