3.2 Learning
Although the above models extend the scope of traditional economic models of
managerial decision-making, they are agnostic on the process of how markets might
reach equilibrium. Likewise, empirical applications of these models also assume that
equilibrium has either already been reached, or if there are multiple equilibria,
equilibrium selection has already taken place. Data from laboratory experiments,
however, show a more nuanced picture. In most experiments, at least for the first fewrounds, observed behavior is far from (any) equilibrium (Roth and Erev 1995;
Camerer 2003). If equilibration occurs, the equilibrium is reached through some
iterative adaptive process, which we will follow convention and refer to as learning.
The growing theory and experimental literature on learning in games has examined
when and how non-standard strategies in games persist. Focusing on different
methods of learning, this literature has shed light on some long-standing issues in
equilibrium models of non-cooperative games.
3.2.1 Learning and equilibrium selection
As discussed earlier, learning has been a particularly fruitful approach in predicting
which equilibrium will be selected in games with multiple Nash equilibria. In the
class of potential games, for example, several belief-based learning models converge
to the potential maximizing equilibrium (Monderer and Shapley 1996). Combining
the classical belief-based learning approach with group-contingent social preferences,
Chen and Chen (2011) propose a theoretical model of social identity and derive
conditions under which social identity changes equilibrium selection by changing the
potential function. Specifically, when people feel more altruistic towards their
ingroup members (Chen and Li 2009), they will exert higher equilibrium effort in
the sense of first-order stochastic dominance in a minimum effort game. To test the
ability of this model to predict behavior in the laboratory, they design an experiment
using the minimum effort games of Van Huyck et al. (1990) with parameter configurations
where learning would result in convergence to the inefficient, low-effort
equilibrium absent of group identity (Goeree and Holt 2005). In their near-minimal
treatments, they show that while matching subjects with ingroup or outgroup members
has some effect on the effort levels chosen they are not statistically distinguishable
from the control, where no groups are induced. On the other hand, when they
enhance the groups by allowing them to communicate with group members in solving
a simple task before playing the minimum effort game, they find that matching
subjects with ingroup members has a statistically significant positive effect on the
subjects’ provided efforts. Thus, consistent with the model, ingroup matching significantly
increases coordination and efficiency. This paper contributes to the theoretical
foundations of social identity by demonstrating that, by using a simple groupcontingent
social preference model, it is possible to endogenize the exogenous norms
in the original Akerlof and Kranton social identity models (2000, 2005) and to
reconcile the theory with experimental findings in a number of coordination games.
The results also have practical implications for organization design. Organizations
are more frequently encountering the issue of integrating a diverse workforce, and
motivating members coming different backgrounds to work towards a common goal.
Chen and Chen (2011) demonstrate that creating a deep sense of common identity can
motivate people to exert more effort to reach a more efficient outcome. A successful
application of this idea comes from Kiva (http://www.kiva.org/), a person-to-person
microfinance lending site, which organizes loans to entrepreneurs around the globe.
In August 2008, Kiva launched its lending teams program which organizes lenders
into identity-based teams. Any lender can join a team based on her school, religion,
geographic location, sports, or other group affiliations. The lending teams program
significantly increases the amount of funds raised.
3.2.2 Biological basis of learning
In numerous laboratory experiments, the general finding is that, for nontrivial games,
players gradually reach equilibrium over time through some process of adaptation,
typically referred to as learning (Camerer 2003, Chapter 6). A number of models of
learning in games have been proposed, particularly reinforcement and belief-based
models, as well as hybrid models such as experienced weighted attraction (EWA) (see
Camerer and Ho 1999 and Ho et al. 2007).
Hsu et al. (2010) build upon this literature by studying the neural mechanisms
underlying strategic learning using functional magnetic resonance imaging (fMRI). This
is a potentially fruitful endeavor as the neural mechanisms of learning have been
revolutionized from the discovery of a class of neurons, namely the dopamine neurons,
that appear to implement the temporal difference (TD) form of reinforcement learning.
Derived from behavioral psychology and machine learning literatures, at the core of TD
learning is the computation and updating of a reward prediction error (RPE), whereby
organisms (in this case players) learn from the discrepancy between what is expected to
happen and what actually happens (Sutton and Barto 1981). This includes a number of
recent papers implicating such dopaminergic regions in decisions under risk and
uncertainty (e.g., Fiorillo et al. 2003). More importantly from the perspective of
strategic learning, this literature offers a set of biologically plausible formal models of
behaviour that has the potential to directly connect behavioral observations of
learning dynamics in games on the one hand (Roth and Erev 1995; Camerer 2003),
and the neural observations of the brain dynamics on the other.
Specifically, Hsu et al. (2010) used an asymmetric version of the patent race game,
first studied experimentally in Rapoport and Amaldoss (2000), to search for regions
of the brain involved in computation of expected payoffs and prediction errors that
can be used to guide behavior. The large strategy space of this game improves the
recovery of key parameters in learning models relative to smaller games typically
used in such studies (Wilcox 2006).
Reinforcement and belief-based models were implemented in the manner consistent
with temporal difference models (Sutton and Barto 1981) and fitted to the neural
data. The results show evidence of reinforcement and belief-based learning signals in
the manner predicted by EWA learning. Somewhat surprisingly, these distinct signals
are represented in both overlapping and distinct brain regions. There are a number of
potential extensions to this study. First, despite the empirical success of the aforementioned
models, the model fits are far from perfect. Belief-learning in particular, relies on
strong functional form assumptions regarding the construction of beliefs, which has longbeen assumed in standard models to be unobservable. Recent studies using proper
scoring rules to elicit beliefs, however, found substantial improvements in fit (Nyarko
and Schotter 2002). As shown out by Rutstrom and Wilcox (2009), however, the act
of elicitation itself may well bias the learning dynamics. In contrast, direct extraction
of beliefs from neural activity presents the possibility of an unbiased measurement of
beliefs. More generally, neural data can discipline behavioral models of learning by
providing direct data regarding the causal mechanisms behind decision-making and
learning.
3.2 การเรียนรู้ถึงแม้ว่าแบบจำลองข้างต้นขยายขอบเขตของแบบจำลองเศรษฐกิจแบบดั้งเดิมของตัดสินใจบริหารจัดการ จะ agnostic ในกระบวนการของการตลาดอาจเป้นการเข้าถึง ในทำนองเดียวกัน รวมโปรแกรมประยุกต์รุ่นเหล่านี้ยังสมมุติว่าสมดุลอย่างใดอย่างหนึ่งแล้ว หรือ ถ้ามีหลาย equilibriaเลือกสมดุลได้แล้วเกิดขึ้น ข้อมูลจากห้องปฏิบัติการทดลองอย่างไรก็ตาม แสดงรูปภาพเพิ่มเติมฉับ ในการทดลองมากที่สุด น้อยสำหรับ fewrounds แรก สังเกตลักษณะการทำงานอยู่ไกลจากสมดุล (ใด ๆ) (รอดและ Erev 1995Camerer 2003) หาก equilibration สมดุลถึงบางอย่างกระบวนการปรับให้เหมาะสมซ้ำ ซึ่งเราจะทำตามแผนการ และอ้างอิงถึงเป็นการเรียนรู้ทฤษฎีการเจริญเติบโตและเอกสารประกอบการทดลองเรียนรู้คำในเกมมีการตรวจสอบเมื่อและกลยุทธ์วิธีมาตรฐานในเกมคงอยู่ เน้นแตกต่างกันวิธีการเรียนรู้ วรรณคดีนี้ได้หลั่งน้ำตาแสงในบางประเด็นที่ยาวนานในแบบจำลองสมดุลของเกมไม่ใช่สหกรณ์3.2.1 เรียนและสมดุลตามที่อธิบายไว้ก่อนหน้านี้ เรียนได้วิธีการโดยเฉพาะประสบในการทำนายสมดุลที่จะถูกเลือกในเกมกับ equilibria แนชหลาย ในประเภทของเกมเป็นไปได้ เช่น หลายรูปแบบตามความเชื่อมาบรรจบกันเพื่อเป็นการเพิ่มสมดุล (Monderer และ Shapley 1996) รวมวิธีการเรียนรู้ตามความเชื่อคลาสสิกกับลักษณะทางสังคมของกลุ่มกองทัพเฉินเฉิน (2011) เสนอแบบจำลองทฤษฎีของเอกลักษณ์ทางสังคม และได้รับซึ่งตัวตนทางสังคมเปลี่ยนแปลงเลือกสมดุล โดยการเปลี่ยนเงื่อนไขการฟังก์ชันที่อาจเกิดขึ้น โดยเฉพาะ เมื่อคนรู้สึก altruistic มากต่อพวกเขาสมาชิก ingroup (เฉินและ Li 2009), พวกเขาจะออกแรงสมดุลความพยายามที่สูงขึ้นในความรู้สึกของการครอบงำแบบเฟ้นสุ่มลำดับแรกในเกมแรง การทดสอบความสามารถในรุ่นนี้การทำนายลักษณะการทำงานในห้องปฏิบัติการ ผู้ออกแบบการทดลองใช้เกมแรงของแวน Huyck et al. (1990) กับการกำหนดค่าพารามิเตอร์ที่เรียนรู้จะส่งผลให้บรรจบกันไปที่ต่ำ ความพยายามต่ำสมดุลขาดของกลุ่มตน (Goeree และโฮลต์ 2005) ในความใกล้น้อยที่สุดรักษา พวกเขาแสดงที่ตรงกับหัวเรื่อง ด้วย ingroup หรือ outgroup สมาชิกบางอย่างมีผลต่อระดับความพยายามเลือกที่จะไม่แตกต่างทางสถิติหรือไม่จากการควบคุม ที่มีเกิดกลุ่มไม่ บนมืออื่น ๆ เมื่อพวกเขาเพิ่มกลุ่ม โดยการอนุญาตให้การสื่อสารกับสมาชิกกลุ่มในการแก้งานง่าย ๆ ก่อนเล่นเกมแรง พวกเขาพบที่ตรงกันเรื่องสมาชิก ingroup มีผลบวกอย่างมีนัยสำคัญทางสถิติในการเรื่องการให้ความ ดังนั้น สอดคล้องกับรุ่น ingroup ตรงกันอย่างมีนัยสำคัญประสานงานเพิ่มขึ้นและมีประสิทธิภาพ เอกสารนี้จัดสรรไปที่ทฤษฎีรากฐานของเอกลักษณ์ทางสังคมโดยเห็นว่า โดยใช้ groupcontingent ง่ายรูปแบบกำหนดลักษณะสังคม จำเป็นต้อง endogenize บรรทัดฐานบ่อยในฉบับ Akerlof และ Kranton สังคมประจำรุ่น (2000, 2005) และกระทบกับจำนวนเกมประสานงานการทดลองค้นพบทฤษฎีผลลัพธ์ได้ผลทางปฏิบัติสำหรับการออกแบบองค์กร องค์กรมีเพิ่มเติมมักพบปัญหาของการรวมกลุ่มแรงงานต่าง ๆ และสร้างแรงจูงใจสมาชิกต่างมาเพื่อทำงานต่อเป้าหมายร่วมกันเฉินและเฉิน (2011) แสดงที่สร้างความลึกของข้อมูลประจำตัวทั่วไปจูงใจคนจะพยายามเพิ่มเติมถึงผลที่มีประสิทธิภาพมากขึ้น การประสบความสำเร็จของความคิดนี้มาจากเดอร์คิ (http://www.kiva.org/), การเกิดไมโครไฟแนนซ์ในยืมเว็บไซต์ การจัดสินเชื่อให้ผู้ประกอบการทั่วโลกสิงหาคม 2551 เดอร์คิเปิดตัวโปรแกรมของทีมให้ยืมที่จัดผู้ให้กู้เป็นทีมที่ใช้ประจำ ผู้ให้กู้ใด ๆ สามารถเข้าร่วมทีมตามโรงเรียนของเธอ ศาสนาที่ตั้งทางภูมิศาสตร์ กีฬา หรือเข้าสังกัดกลุ่มอื่น ๆ โปรแกรมทีมยืมเพิ่มขึ้นจำนวนเงินที่เพิ่มขึ้นอย่างมีนัยสำคัญ 3.2.2 ชีวภาพพื้นฐานการเรียนรู้ในหลายปฏิบัติการทดลอง ค้นหาทั่วไปคือ เกม nontrivialเล่นค่อย ๆ ถึงสมดุลเวลาผ่านบางขั้นตอนการปรับตัวโดยทั่วไปอ้างถึงเป็นการเรียนรู้ (Camerer 2003 บทที่ 6) หมายเลขรุ่นของเรียนรู้ในเกมได้รับการเสนอชื่อ เหล็กเสริมโดยเฉพาะอย่างยิ่ง ตามความเชื่อและรูปแบบ เป็นรุ่นไฮบริดเช่นประสบการณ์เที่ยวถ่วงน้ำหนัก (เอวา) (ดูCamerer และโฮจิมินห์ 1999 และโฮจิมินห์ et al. 2007)ซู et al. (2010) สร้างเอกสารประกอบการนี้ โดยศึกษากลไกประสาทต้นแบบเรียนรู้กลยุทธ์ที่ใช้ทำแม่เหล็กสั่นพ้องภาพ (fMRI) นี้เป็นการแข่งขันอาจประสบได้ประสาทกลไกการเรียนรู้จากการค้นพบชั้นของ neurons ได้แก่การโดพามีน neurons, revolutionizedที่จะใช้แบบความแตกต่างชั่วคราว (TD) การเรียนรู้เสริมสร้างมาจากจิตวิทยาพฤติกรรมและเครื่องเรียน literatures ของ TDเรียนรู้เป็นการคำนวณและการปรับปรุงมีรางวัลทายผลข้อผิดพลาด (RPE), โดยสิ่งมีชีวิต (ในกรณีนี้เล่น) เรียนรู้จากความขัดแย้งระหว่างสิ่งคาดว่าจะเกิดขึ้น และอะไรจะเกิดขึ้น (ซัตตั้นและ Barto 1981) นี้มีจำนวนเอกสารล่าสุดที่ implicating เช่นภูมิภาค dopaminergic ในตัดสินใจภายใต้ความเสี่ยง และความไม่แน่นอน (เช่น Fiorillo et al. 2003) ที่สำคัญจากมุมมองของกลยุทธ์เรียน เอกสารประกอบการนี้มีชุดของแบบเป็นชิ้นเป็นไปได้พฤติกรรมที่มีศักยภาพในการสังเกตพฤติกรรมของการเชื่อมต่อโดยตรงเรียน dynamics ในเกมบนมือหนึ่ง (รอดและ Erev 1995 Camerer 2003),และข้อสังเกตุประสาทของสมองเปลี่ยนแปลงอื่น ๆใช้ซู et al. (2010) เฉพาะรุ่น asymmetric ของเกมการแข่งขันสิทธิบัตรfirst studied experimentally in Rapoport and Amaldoss (2000), to search for regionsof the brain involved in computation of expected payoffs and prediction errors thatcan be used to guide behavior. The large strategy space of this game improves therecovery of key parameters in learning models relative to smaller games typicallyused in such studies (Wilcox 2006).Reinforcement and belief-based models were implemented in the manner consistentwith temporal difference models (Sutton and Barto 1981) and fitted to the neuraldata. The results show evidence of reinforcement and belief-based learning signals inthe manner predicted by EWA learning. Somewhat surprisingly, these distinct signalsare represented in both overlapping and distinct brain regions. There are a number ofpotential extensions to this study. First, despite the empirical success of the aforementionedmodels, the model fits are far from perfect. Belief-learning in particular, relies onstrong functional form assumptions regarding the construction of beliefs, which has longbeen assumed in standard models to be unobservable. Recent studies using properscoring rules to elicit beliefs, however, found substantial improvements in fit (Nyarkoand Schotter 2002). As shown out by Rutstrom and Wilcox (2009), however, the actof elicitation itself may well bias the learning dynamics. In contrast, direct extractionof beliefs from neural activity presents the possibility of an unbiased measurement ofbeliefs. More generally, neural data can discipline behavioral models of learning byproviding direct data regarding the causal mechanisms behind decision-making andlearning.
การแปล กรุณารอสักครู่..
