In this phase, the full dataset of 5,272 cases was randomly divided
into smaller datasets with the following developmental sample sizes: 150,
300, 500, 700, 1,000, 2,000, and 3,515, which represents two-thirds of
the entire dataset. This process was repeated five times, yielding 35 total
datasets (five at each of the seven developmental sample sizes). The
50 different scoring keys were generated for each of the 35 samples. All
samples were cross-validated using a large holdout group of 1,757 cases
(which represents one-third of the entire dataset). We chose to use a large
holdout because it should yield more stable cross-validities (due to the
increased power and diminished sampling error associated with such a
large holdout group).
ในขั้นตอนนี้ชุดเต็ม 5272 กรณีถูกแบ่งออกสุ่ม
เป็นชุดข้อมูลขนาดเล็กที่มีขนาดตัวอย่างดังต่อไปนี้การพัฒนา: 150,
300, 500, 700, 1,000, 2,000, และ 3,515 ซึ่งแสดงให้เห็นถึงสองในสามของ
ชุดทั้ง . กระบวนการนี้ซ้ำห้าครั้งผลผลิตรวม 35
ชุดข้อมูล (ห้าในแต่ละเจ็ดขนาดตัวอย่างการพัฒนา)
50 ปุ่มให้คะแนนที่แตกต่างกันถูกสร้างขึ้นสำหรับแต่ละ 35 ตัวอย่าง
ตัวอย่างทั้งหมดถูกข้ามตรวจสอบโดยใช้กลุ่มใหญ่อดทนของ 1,757 กรณี
(ซึ่งหมายถึงหนึ่งในสามของทั้งชุด) เราเลือกที่จะใช้ขนาดใหญ่
อดทนเพราะมันควรผลผลิตมีเสถียรภาพมากขึ้นข้ามความถูกต้อง (เนื่องจาก
พลังงานที่เพิ่มขึ้นและการสุ่มตัวอย่างข้อผิดพลาดที่เกี่ยวข้องกับการลดลงดังกล่าวเป็นกลุ่ม
อดทนขนาดใหญ่)
การแปล กรุณารอสักครู่..

ในระยะนี้ ชุดข้อมูลทั้งหมดของ 5,272 กรณีถูกสุ่มแบ่ง
เป็น datasets ขนาดเล็กกับขนาดพัฒนาตัวอย่างต่อไปนี้: 150,
300, 500, 700, 1000, 2000 และ 3,515 ซึ่งแสดงถึงสองในสามของ
ชุดข้อมูลทั้งหมด กระบวนการนี้ถูกซ้ำห้าครั้ง ผลผลิตรวม 35
datasets (ห้าที่แต่ละขนาดตัวอย่างพัฒนา 7) ใน
แป้นให้คะแนน 50 สร้างขึ้นสำหรับแต่ละตัวอย่าง 35 ทั้งหมด
ตัวอย่างถูกข้ามตรวจโดยใช้กลุ่มขนาดใหญ่ holdout กรณี 1,757
(ซึ่งหมายถึงหนึ่งในสามของชุดข้อมูลทั้งหมด) เราเลือกที่จะใช้ขนาดใหญ่
holdout เนื่องจากควรอัตราผลตอบแทน validities ข้ามล้ำ (เนื่อง
เพิ่มพลังงาน และสุ่มตัวอย่างข้อผิดพลาดที่เกี่ยวข้อง ด้วยเช่นการลดลง
holdout ใหญ่กลุ่ม)
การแปล กรุณารอสักครู่..
