3.2 Learning
Although the above models extend the scope of traditional economic models of
managerial decision-making, they are agnostic on the process of how markets might
reach equilibrium. Likewise, empirical applications of these models also assume that
equilibrium has either already been reached, or if there are multiple equilibria,
equilibrium selection has already taken place. Data from laboratory experiments,
however, show a more nuanced picture. In most experiments, at least for the first fewrounds, observed behavior is far from (any) equilibrium (Roth and Erev 1995;
Camerer 2003). If equilibration occurs, the equilibrium is reached through some
iterative adaptive process, which we will follow convention and refer to as learning.
The growing theory and experimental literature on learning in games has examined
when and how non-standard strategies in games persist. Focusing on different
methods of learning, this literature has shed light on some long-standing issues in
equilibrium models of non-cooperative games.
3.2.1 Learning and equilibrium selection
As discussed earlier, learning has been a particularly fruitful approach in predicting
which equilibrium will be selected in games with multiple Nash equilibria. In the
class of potential games, for example, several belief-based learning models converge
to the potential maximizing equilibrium (Monderer and Shapley 1996). Combining
the classical belief-based learning approach with group-contingent social preferences,
Chen and Chen (2011) propose a theoretical model of social identity and derive
conditions under which social identity changes equilibrium selection by changing the
potential function. Specifically, when people feel more altruistic towards their
ingroup members (Chen and Li 2009), they will exert higher equilibrium effort in
the sense of first-order stochastic dominance in a minimum effort game. To test the
ability of this model to predict behavior in the laboratory, they design an experiment
using the minimum effort games of Van Huyck et al. (1990) with parameter configurations
where learning would result in convergence to the inefficient, low-effort
equilibrium absent of group identity (Goeree and Holt 2005). In their near-minimal
treatments, they show that while matching subjects with ingroup or outgroup members
has some effect on the effort levels chosen they are not statistically distinguishable
from the control, where no groups are induced. On the other hand, when they
enhance the groups by allowing them to communicate with group members in solving
a simple task before playing the minimum effort game, they find that matching
subjects with ingroup members has a statistically significant positive effect on the
subjects’ provided efforts. Thus, consistent with the model, ingroup matching significantly
increases coordination and efficiency. This paper contributes to the theoretical
foundations of social identity by demonstrating that, by using a simple groupcontingent
social preference model, it is possible to endogenize the exogenous norms
in the original Akerlof and Kranton social identity models (2000, 2005) and to
reconcile the theory with experimental findings in a number of coordination games.
The results also have practical implications for organization design. Organizations
are more frequently encountering the issue of integrating a diverse workforce, and
motivating members coming different backgrounds to work towards a common goal.
Chen and Chen (2011) demonstrate that creating a deep sense of common identity can
motivate people to exert more effort to reach a more efficient outcome. A successful
application of this idea comes from Kiva (http://www.kiva.org/), a person-to-person
microfinance lending site, which organizes loans to entrepreneurs around the globe.
In August 2008, Kiva launched its lending teams program which organizes lenders
into identity-based teams. Any lender can join a team based on her school, religion,
geographic location, sports, or other group affiliations. The lending teams program
significantly increases the amount of funds raised.
3.2.2 Biological basis of learning
In numerous laboratory experiments, the general finding is that, for nontrivial games,
players gradually reach equilibrium over time through some process of adaptation,
typically referred to as learning (Camerer 2003, Chapter 6). A number of models of
learning in games have been proposed, particularly reinforcement and belief-based
models, as well as hybrid models such as experienced weighted attraction (EWA) (see
Camerer and Ho 1999 and Ho et al. 2007).
Hsu et al. (2010) build upon this literature by studying the neural mechanisms
underlying strategic learning using functional magnetic resonance imaging (fMRI). This
is a potentially fruitful endeavor as the neural mechanisms of learning have been
revolutionized from the discovery of a class of neurons, namely the dopamine neurons,
that appear to implement the temporal difference (TD) form of reinforcement learning.
Derived from behavioral psychology and machine learning literatures, at the core of TD
learning is the computation and updating of a reward prediction error (RPE), whereby
organisms (in this case players) learn from the discrepancy between what is expected to
happen and what actually happens (Sutton and Barto 1981). This includes a number of
recent papers implicating such dopaminergic regions in decisions under risk and
uncertainty (e.g., Fiorillo et al. 2003). More importantly from the perspective of
strategic learning, this literature offers a set of biologically plausible formal models of
behaviour that has the potential to directly connect behavioral observations of
learning dynamics in games on the one hand (Roth and Erev 1995; Camerer 2003),
and the neural observations of the brain dynamics on the other.
Specifically, Hsu et al. (2010) used an asymmetric version of the patent race game,
first studied experimentally in Rapoport and Amaldoss (2000), to search for regions
of the brain involved in computation of expected payoffs and prediction errors that
can be used to guide behavior. The large strategy space of this game improves the
recovery of key parameters in learning models relative to smaller games typically
used in such studies (Wilcox 2006).
Reinforcement and belief-based models were implemented in the manner consistent
with temporal difference models (Sutton and Barto 1981) and fitted to the neural
data. The results show evidence of reinforcement and belief-based learning signals in
the manner predicted by EWA learning. Somewhat surprisingly, these distinct signals
are represented in both overlapping and distinct brain regions. There are a number of
potential extensions to this study. First, despite the empirical success of the aforementioned
models, the model fits are far from perfect. Belief-learning in particular, relies on
strong functional form assumptions regarding the construction of beliefs, which has longbeen assumed in standard models to be unobservable. Recent studies using proper
scoring rules to elicit beliefs, however, found substantial improvements in fit (Nyarko
and Schotter 2002). As shown out by Rutstrom and Wilcox (2009), however, the act
of elicitation itself may well bias the learning dynamics. In contrast, direct extraction
of beliefs from neural activity presents the possibility of an unbiased measurement of
beliefs. More generally, neural data can discipline behavioral models of learning by
providing direct data regarding the causal mechanisms behind decision-making and
learning.
3.2 การเรียนรู้
ถึงแม้ว่ารูปแบบดังกล่าวข้างต้นขยายขอบเขตของรูปแบบเศรษฐกิจแบบดั้งเดิมของ
การตัดสินใจบริหาร พวกเขาไม่เชื่อในพระเจ้าในกระบวนการของวิธีการตลาดอาจ
ถึงสมดุล อนึ่ง งานเชิงประจักษ์ของรุ่นนี้ก็ถือว่ามีให้อยู่แล้ว
สมดุลถึง หรือถ้ามีหลายสมดุล สมดุล
เลือกได้ .ข้อมูลจากการทดลองในห้องปฏิบัติการ
แต่แสดงเพิ่มเติมโดยภาพ ในการทดลองมากที่สุด อย่างน้อยเพื่อ fewrounds แรก สังเกตพฤติกรรมที่ห่างไกลจาก ( ใด ๆ ) สมดุล ( Roth และ erev 1995 ;
camerer 2003 ) ถ้า equilibration เกิดขึ้นสมดุลถึงผ่านบาง
ซ้ำกระบวนการปรับตัว ซึ่งเราจะติดตามการประชุมและเรียกว่า การเรียนรู้
การเปรียบเทียบทฤษฎีและวรรณกรรมในการเรียนรู้ในเกมได้ตรวจสอบ
เมื่อและวิธีการมาตรฐานในเกมกลยุทธ์คงอยู่ มุ่งเน้นไปที่วิธีการที่แตกต่างกัน
การเรียนรู้วรรณคดีนี้หลั่งแสงในบางอันยาวนานในประเด็น
ตัวแบบดุลยภาพไม่ใช่เกมแบบร่วมมือ และการดำเนินงานของการเรียนรู้
ตามที่กล่าวไว้ก่อนหน้านี้การเรียนรู้มีวิธีการโดยเฉพาะอย่างยิ่งมีผลในการพยากรณ์
ที่สมดุลจะถูกเลือกในเกมกับหลายแนชสมดุล . ใน
คลาสของเกมที่มีศักยภาพตัวอย่างเช่นความเชื่อหลายฐานการเรียนรู้แบบบรรจบ
เพื่อศักยภาพสูงสุด ( และสมดุล monderer แชปลีย์ 1996 ) รวม
ความเชื่อคลาสสิกการเรียนรู้วิธีการกลุ่มผูกพันทางสังคม
ความชอบเฉิน และ เฉิน ( 2011 ) นำเสนอรูปแบบทางทฤษฎีอัตลักษณ์ทางสังคมและการสืบทอด
ภายใต้เงื่อนไขที่เปลี่ยนแปลงสถานะทางสังคมโดยการเปลี่ยนสมดุล การเลือกฟังก์ชัน
ที่มีศักยภาพ โดยเฉพาะ เมื่อคนรู้สึกเอื้อเฟื้อต่อสมาชิกกลุ่มของพวกเขา
( เฉินและหลี่ 2009 ) , พวกเขาจะออกแรงความพยายามสูงสมดุลใน
ความรู้สึกแรกสุ่มการปกครองในเกมความพยายามน้อยที่สุดเพื่อทดสอบความสามารถของรูปแบบนี้
ทำนายพฤติกรรมในห้องปฏิบัติการที่พวกเขาออกแบบการทดลอง
ใช้ความพยายามน้อยที่สุดเกมของ แวน huyck et al . ( 1990 ) กับพารามิเตอร์การกำหนดค่า
ที่การเรียนการสอนจะส่งผลให้ประสิทธิภาพต่ำเวอร์ , ความพยายาม
สมดุลขาดเอกลักษณ์ของกลุ่ม และ goeree โฮลท์ 2005 ) ในการรักษาของพวกเขาใกล้น้อยที่สุด
,พวกเขาแสดงให้เห็นว่าในขณะที่จับคู่กลุ่มตัวอย่างที่มีกลุ่มหรือสมาชิกกลุ่ม
มีผลบางอย่างในระดับที่พยายามเลือกพวกเขาเป็นอย่างมีนัยสำคัญที่แตกต่าง
จากการควบคุมที่ไม่มีกลุ่มจะเกิด บนมืออื่น ๆ เมื่อพวกเขา
เพิ่มกลุ่มโดยให้พวกเขาสามารถสื่อสารกับสมาชิกกลุ่มในการแก้ปัญหา
งานง่ายๆก่อนเล่นเกมความพยายามน้อยที่สุด พวกเขาพบว่า การจับคู่
ความสัมพันธ์กับสมาชิกในกลุ่มที่มีผลอย่างมีนัยสำคัญในเชิงบวกเกี่ยวกับ
วิชาให้ความพยายาม ซึ่งสอดคล้องกับรูปแบบของกลุ่มเพิ่มขึ้นอย่างมีนัยสำคัญ
จับคู่ประสานงานและประสิทธิภาพ กระดาษนี้ก่อให้เกิดรากฐานทางทฤษฎี
อัตลักษณ์ทางสังคม โดยแสดง โดยใช้การวิ groupcontingent
สังคมการตั้งค่ารูปแบบมันเป็นไปได้ที่จะ endogenize บรรทัดฐานจากภายนอก
ในต้นฉบับ เ คอร์ลอฟและเอกลักษณ์ทางสังคม kranton รุ่น ( 2000 , 2005 ) และ
ง้อทฤษฎีกับการทดลองใช้ในหลายประสานงานเกม .
ผลยังมีผลกระทบในทางปฏิบัติสำหรับการออกแบบองค์กร องค์กร
บ่อยพบปัญหาของการบูรณาการบุคลากรหลากหลายและ
การกระตุ้นสมาชิกมาหลังที่แตกต่างกันทำงานไปสู่เป้าหมายร่วมกัน
เฉินและเฉิน ( 2011 ) แสดงให้เห็นว่า การสร้างความรู้สึกลึกของตัวตนทั่วไปสามารถ
กระตุ้นให้ผู้คนใช้ความพยายามมากขึ้นเพื่อเข้าถึงผลมีประสิทธิภาพมากขึ้น โปรแกรมที่ประสบความสำเร็จ
ของความคิดนี้มาจากคิบะ ( http : / / www.kiva . org / ) , มีคนยืม
บริการเว็บไซต์ซึ่งจัดสินเชื่อเพื่อผู้ประกอบการทั่วโลก .
ในเดือนสิงหาคม 2008 , คิบะเปิดตัวโปรแกรมซึ่งจัดทีมสินเชื่อตลอดจน
ในตัวตน โดยทีม ใด ๆที่ผู้ให้กู้สามารถเข้าร่วมทีมตามโรงเรียนของเธอ , ศาสนา ,
สถานที่ , กีฬาทางภูมิศาสตร์ หรือกลุ่มอื่น ๆ ปัจจุบัน ทีมให้ยืมโปรแกรม
มีผลในการเพิ่มปริมาณของเงินขึ้นมา 3.2.2 แท้ๆ
พื้นฐานของการเรียนรู้ในการทดลองในห้องปฏิบัติการมากมาย พบทั่วไปคือว่าเกมนอนทริเวียล
ผู้เล่นค่อยๆเข้าถึง , สมดุลตลอดเวลา ผ่านกระบวนการของการปรับตัว
โดยปกติหมายถึงการเรียนรู้ ( camerer 2003 บทที่ 6 ) หมายเลขรุ่นของ
การเรียนรู้ในเกมที่ได้รับการเสนอโดยการเสริมแรงและความเชื่อตาม
รุ่นเช่นเดียวกับรุ่นไฮบริด เช่น ประสบการณ์เที่ยวหนัก ( อีวา ) ( ดู
camerer โฮ 1999 และโฮ et al . 2007 ) .
Hsu et al . ( 2010 ) สร้างเมื่อวรรณกรรมนี้โดยศึกษากลไกพื้นฐานการเรียนรู้โดยใช้ประสาท
ยุทธศาสตร์การทำงานภาพแม่เหล็ก ( fMRI ) นี้เป็นความพยายามที่อาจมีผล
เป็นกลไกประสาทของการเรียนรู้ได้
การปฏิวัติจากการค้นพบของชั้นเรียนของเซลล์ประสาท คือ โดปามีน ประสาท ,
ที่ปรากฏที่จะใช้ความแตกต่างชั่วคราว ( TD ) รูปแบบของการเรียนรู้แบบเสริมกำลัง .
มาจากจิตวิทยาพฤติกรรมและการเรียนรู้เครื่องวรรณกรรม ในหลักของ TD
การเรียนรู้คือการคำนวณและปรับปรุงรางวัลทำนายผิดพลาด ( RPE
) โดยสิ่งมีชีวิต ( ในกรณีนี้ผู้เล่น ) เรียนรู้จากความขัดแย้งระหว่างสิ่งที่คาดว่า
เกิดขึ้นและสิ่งที่เกิดขึ้นจริง ( Sutton และ barto 1981 ) นี้รวมถึงตัวเลขของ
เอกสารล่าสุดพาดพิงไปถึง เช่น การตัดสินใจเกี่ยวกับโดปามีนในภูมิภาคภายใต้ความเสี่ยงและความไม่แน่นอน ( เช่น
fiorillo et al . 2003 ) ที่สำคัญจากมุมมองของ
การเรียนรู้เชิงกลยุทธ์วรรณกรรมนี้มีชุดของชีวภาพสัมพันธ์อย่างเป็นทางการรุ่นของ
พฤติกรรมที่จะมีศักยภาพในการเชื่อมต่อพฤติกรรมการสังเกตของ
พลวัตการเรียนรู้เกมบนมือข้างหนึ่ง ( Roth และ erev 1995 ; camerer 2003 ) ,
1 สมองและประสาทของในอื่น ๆ โดยเฉพาะกลุ่ม
, et al . ( 2010 ) ใช้รุ่นไม่สมมาตรของเกมการแข่งขัน
สิทธิบัตรก่อนเรียนและทดลองใน amaldoss Rapoport ( 2000 ) , การค้นหาสำหรับภูมิภาค
ของสมองที่เกี่ยวข้องในการคำนวณผลตอบแทนที่คาดหวังและข้อผิดพลาดการทำนาย
สามารถใช้คู่มือพฤติกรรม กลยุทธ์พื้นที่ขนาดใหญ่ของเกมนี้ปรับปรุง
การฟื้นตัวของพารามิเตอร์ของคีย์ในรูปแบบการเรียนรู้ที่สัมพันธ์กับเกมที่มีขนาดเล็กมักจะใช้ในการศึกษาดังกล่าว ( วิล
) )การเสริมแรงและความเชื่อตามรูปแบบถูกนำมาใช้ในลักษณะที่สอดคล้องกับแบบชั่วคราว ( ซัตตัน
ความแตกต่าง และ barto 1981 ) และประกอบกับข้อมูลแบบ
ผลลัพธ์ที่แสดงหลักฐานของการเสริมแรงและความเชื่อตามสัญญาณในลักษณะการเรียนรู้
ทำนายโดย EWA การเรียนรู้ ค่อนข้างแปลกใจเหล่านี้สัญญาณแตกต่างกัน
จะแสดงทั้งดอกซ้อนและพื้นที่สมองที่แตกต่างกันมีหมายเลขของนามสกุล
ศักยภาพการศึกษา แรก แม้จะมีความสำเร็จเชิงประจักษ์ของรุ่นดังกล่าว
, รูปแบบพอดีอยู่ไกลจากที่สมบูรณ์แบบ ความเชื่อการเรียนรู้โดยอาศัยสมมติฐานเกี่ยวกับการทำงาน
แข็งแรงรูปแบบการก่อสร้างของความเชื่อ ซึ่งมีราชอาณาจักรไทยสันนิษฐานในรุ่นมาตรฐานจะ unobservable . การศึกษาการใช้ที่เหมาะสม
กฎคะแนนแบบสอบถามความเชื่อ อย่างไรก็ตาม พบว่า การปรับปรุงอย่างมากในพอดี ( และ nyarko
schotter 2002 ) ที่แสดงโดย rutstrom และวิลคอกซ์ ( 2009 ) แต่การกระทำของตัวเองอาจจะอคติ
การวิชาพลศาสตร์ ในทางตรงกันข้าม
การสกัดโดยตรงของความเชื่อจากกิจกรรมประสาทแสดงความเป็นไปได้ของการวัดเป็นกลาง
ความเชื่อ มากขึ้นโดยทั่วไปข้อมูลระบบประสาทสามารถวินัยพฤติกรรมรูปแบบของการเรียนรู้โดยให้ข้อมูลโดยตรงเกี่ยวกับ
สาเหตุและกลไกเบื้องหลังการตัดสินใจ
เรียน
การแปล กรุณารอสักครู่..
