Contents
1 Introduction 1
1.1 Learning Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Why study Ensembles? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 What is this Thesis about? . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Thesis Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 Contributions of the Thesis . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.3 Structure of the Thesis . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.4 Publications Resulting from the Thesis . . . . . . . . . . . . . . . . . 8
2 Combinations of Learning Machines 10
2.1 Supervised Learning and Neural Networks . . . . . . . . . . . . . . . . . . . 10
2.1.1 Error Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 The Supervised Learning Problem . . . . . . . . . . . . . . . . . . . 14
2.1.3 Bias and Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.4 Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Methods for Combining a Set of Predictors . . . . . . . . . . . . . . . . . . 20
2.2.1 Linear Combinations . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Non-Linear Combinations . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Architectures for Learning a Set of Predictors . . . . . . . . . . . . . . . . . 25
2.3.1 Ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.2 Mixtures of Experts . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.3 Dyn-Co : Blending between Mixtures and Ensembles? . . . . . . . . 30
2.3.4 Ensembles, Mixtures, and Dyn-Co . . . . . . . . . . . . . . . . . . . 31