CHAPTER 3. DEFINING DIVERSITY 49
resulting networks differed in the number of cycles in which they took to converge upon
a solution, and in whether they converged at all. However, the trained neural networks
were not found to be statistically independent in their generalisation performance, i.e. they
displayed very similar patterns of generalisation despite having been derived from different
initial weight vectors. Thus, varying the initial weights of neural networks, although important when using a deterministic training method such as backpropagation, seems not to
be an effective stand-alone method for generating error diversity in an ensemble of neural
networks.
These observations are supported by a number of other studies. Partridge [106, 155]
conducted several experiments on large (> 150, 000 patterns) synthetic data sets, and concludes that after network type, training set structure, and number of hidden units, the
random initialization of weights is the least effective method for generating diversity. Parmanto, Munro and Doyle [12] used one synthetic dataset and two medical diagnosis datasets
to compare 10-fold cross-validation, Bagging, and random weight initializations; again the
random weights method comes in last place.
We have now discussed implicit diversity methods for manipulating the starting point
in hypothesis space. We will next discuss an explicit method for this, where randomisation
of weights does not occur.
Maclin and Shavlik [89] present an approach to initializing neural network weights that
uses competitive learning to create networks that are initialised far from the origin of weight
space, thereby potentially increasing the set of reachable local minima; they show significantly improved performance over the standard method of initialization on two real world
datasets.
A technique relevant to this discussion, Fast Committee Learning [131] trains a single
neural network, taking M snapshots of the state of its weights at a number of instances
during the training. The M snapshots are then used as M different ensemble members.
Although the performance was not as good as when using separately trained nets, this offers
the advantage of reduced training time as it is only necessary to train one network.
บทที่ 3 การกำหนดความหลากหลาย 49เครือข่ายผลลัพธ์ที่แตกต่างในจำนวนรอบที่เอาให้มาบรรจบกันเมื่อการแก้ปัญหา และว่าพวกเขาทั้งหมด converged อย่างไรก็ตาม ฝึกอบรมเครือข่ายประสาทไม่พบเป็นอิสระทางสถิติในการปฏิบัติ generalisation เช่นเขาแสดงรูปแบบคล้ายของ generalisation แม้จะมีรับมาจากที่อื่นน้ำหนักเริ่มต้นเวกเตอร์ ดังนั้น แตกต่างกันไปน้ำหนักเริ่มต้นของเครือข่ายประสาท ความสำคัญเมื่อใช้วิธีฝึกอบรม deterministic เช่น backpropagation แม้ว่าดูเหมือนไม่เป็นวิธีการแบบสแตนด์อโลนที่มีประสิทธิภาพสำหรับการสร้างความหลากหลายของข้อผิดพลาดในวงการดนตรีของประสาทเครือข่ายข้อสังเกตเหล่านี้ได้รับการสนับสนุน โดยการศึกษาอื่น ๆ Partridge [106, 155]ดำเนินการทดลองหลายบนขนาดใหญ่ (> 150, 000 รูป) สังเคราะห์ชุดข้อมูล และสรุปว่า หลังจากชนิดของเครือข่าย อบรมตั้งโครงสร้าง และจำนวนของหน่วยที่ซ่อนน้ำหนักเริ่มต้นสุ่มเป็นวิธีมีประสิทธิภาพน้อยที่สุดสำหรับการสร้างความหลากหลาย Parmanto จู๋และดอยล์ [12] ใช้ชุดข้อมูลสังเคราะห์ที่หนึ่งและสองโรค datasetsเปรียบเทียบ 10-fold สอบข้าม เย็บถุง และสุ่มน้ำหนัก initializations อีกครั้งวิธีสุ่มน้ำหนักมาที่สุดท้ายเราตอนนี้ได้กล่าวถึงวิธีการหลากหลายนัยแต่จุดเริ่มต้นในพื้นที่สมมติฐาน ต่อไปเราจะหารือวิธีการชัดเจนนี้ ที่ randomisationof weights does not occur.Maclin and Shavlik [89] present an approach to initializing neural network weights thatuses competitive learning to create networks that are initialised far from the origin of weightspace, thereby potentially increasing the set of reachable local minima; they show significantly improved performance over the standard method of initialization on two real worlddatasets.A technique relevant to this discussion, Fast Committee Learning [131] trains a singleneural network, taking M snapshots of the state of its weights at a number of instancesduring the training. The M snapshots are then used as M different ensemble members.Although the performance was not as good as when using separately trained nets, this offersthe advantage of reduced training time as it is only necessary to train one network.
การแปล กรุณารอสักครู่..
