Markov Decision Processes (MDPs) ar

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

Markov Decision Processes (MDPs) are a powerful toolfor planning in the presence of uncertainty. MDPs providea theoretically sound means of achieving optimal rewardsin uncertain domains. The standard MDP problemis to find a policy π : S → A that maps states to actionssuch that the cumulative long-term reward is maximized accordingto some objective function. Over an infinite timehorizon, the objective function is typically a sum of discountedrewards or the average reward rate as t → ∞(?;?). Over a finite time horizon, a discount factor is notneeded, and the objective function is typically the sum ofthe rewards achieved at each time step.Our work is motivated by zero-sum games with score andlimited time; in particular, robot soccer. In timed, zerosumgames, winning against the opponent is more importantthan the final score. Therefore, a team that is losingnear the end of the game should play aggressively toCopyright c 2007, Association for the Advancement of ArtificialIntelligence (www.aaai.org). All rights reserved.try to even the score even if an aggressive strategy allowsthe opponent to score more easily. McMillen and Velosodiscuss how a team of soccer-playing robots can changeplays (high-level team strategies) based on factors such asthe time remaining in a game and the score difference (?;?). However, this strategy selection was hand-tuned, usingsimple rules such as, “If our team is losing and there is lessกว่าหนึ่งนาทีที่เหลือ เล่นอุกอาจ"ในเอกสารนี้ เราพิจารณาฟังก์ชันวัตถุประสงค์ทางการในขอบเขตจำกัด MDPs. Rather กว่าเพิ่มรางวัลสะสมผ่านขั้นตอนเวลา h เราใช้มีขีดจำกัดฟังก์ชัน f จะสะสมรางวัลสุดท้าย และพยายามให้มากที่สุดค่าของ f เราเรียกนี้รางวัล thresholdedฟังก์ชันวัตถุประสงค์ ฟังก์ชันวัตถุประสงค์นี้ทำให้เราได้รับเลือกกลยุทธ์ที่เหมาะสมที่สุดสำหรับเวลา ศูนย์–รวมเกมเช่นหุ่นยนต์ฟุตบอล เป้าหมายคือการ ชนะ: จะเจริญก้าวหน้าของฝ่ายตรงข้ามหลังจากจำนวนเวลาขั้นตอน ดีที่สุดนโยบายสำหรับโดเมนดังกล่าวเป็นที่วางความน่าเป็นการล่วงหน้าในตอนท้ายของเกม ดังกล่าวเป็นนโยบายโดยทั่วไปจะเป็น nonstationary: การดำเนินการที่เหมาะสมจากสิ่งที่กำหนดขึ้นอยู่กับจำนวนที่เหลือ timestepsและความแตกต่างคะแนนปัจจุบัน ในเอกสารนี้ เรานำอัลกอริทึมแน่นอนสำหรับนโยบายที่เหมาะสมที่สุดสำหรับการค้นหารางวัล thresholded MDPs อย่างไรก็ตาม เวลาทำงานของอัลกอริทึมนี้ได้พึ่งจำนวนกำลังสองอเมริกา MDP และความยาวของขอบเขตเวลา สำหรับMDPs ช่องว่างรัฐขนาดใหญ่หรือยาวเวลาฮอลิซันส์ ตรงอัลกอริทึมอาจ intractable เราจึงตรวจสอบการหลากหลายเทคนิคการแก้ปัญหาโดยประมาณ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

กระบวนการตัดสินใจมาร์คอฟ (MDPs)
เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวางแผนในการปรากฏตัวของความไม่แน่นอน MDPs
ให้หมายถึงเสียงในทางทฤษฎีของการบรรลุผลตอบแทนที่ดีที่สุดในโดเมนที่มีความไม่แน่นอน
ปัญหา MDP
มาตรฐานคือการหานโยบายπ: S
→ที่แผนที่รัฐเพื่อการกระทำดังกล่าวว่าผลตอบแทนในระยะยาวที่สะสมขยายตามไปบางส่วนฟังก์ชันวัตถุประสงค์
ในช่วงเวลาที่ไม่มีที่สิ้นสุดขอบฟ้า, ฟังก์ชั่นวัตถุประสงค์โดยทั่วไปจะมีผลรวมของการลดผลตอบแทนหรืออัตราผลตอบแทนเฉลี่ยที่เป็นเสื้อ→∞ (?;?) ช่วงระยะเวลาที่ จำกัด ปัจจัยส่วนลดไม่จำเป็นและฟังก์ชั่นวัตถุประสงค์โดยทั่วไปจะมีผลรวมของผลตอบแทนที่ได้รับในแต่ละขั้นตอนเวลา. การทำงานของเรามีแรงบันดาลใจจากเกมศูนย์รวมมีคะแนนและเวลาที่ จำกัด ; โดยเฉพาะอย่างยิ่งฟุตบอลหุ่นยนต์ ในเวลาที่กำหนด, zerosum เกมชนะกับฝ่ายตรงข้ามที่มีความสำคัญมากขึ้นกว่าคะแนนสุดท้าย ดังนั้นทีมงานที่มีการสูญเสียใกล้ถึงจุดสิ้นสุดของเกมที่ควรจะเล่นเชิงรุกเพื่อลิขสิทธิ์ค2007 สมาคมเพื่อความก้าวหน้าของเทียมหน่วยสืบราชการลับ(www.aaai.org) สงวนลิขสิทธิ์. พยายามที่จะได้คะแนนแม้ว่ากลยุทธ์เชิงรุกช่วยให้ฝ่ายตรงข้ามที่จะทำคะแนนได้ง่ายขึ้น McMillen เบโลโซและหารือเกี่ยวกับวิธีการที่ทีมของหุ่นยนต์ฟุตบอลเล่นสามารถเปลี่ยนบทละคร(ทีมงานระดับสูงกลยุทธ์) ตามปัจจัยต่าง ๆ เช่นเวลาที่เหลืออยู่ในเกมและความแตกต่างคะแนน(?) อย่างไรก็ตามการเลือกใช้กลยุทธ์นี้เป็นมือปรับใช้กฎง่ายๆเช่น"ถ้าทีมงานของเราคือการสูญเสียและมีน้อยกว่าหนึ่งนาทีที่เหลือเล่นอย่างจริงจัง". ในบทความนี้เราจะพิจารณาฟังก์ชันวัตถุประสงค์ทางเลือกสำหรับ MDPs จำกัด ขอบฟ้า . มากกว่าการเพิ่มรางวัลสะสมในช่วงชั่วโมงขั้นตอนเวลาที่เราใช้เกณฑ์ฟังก์ชั่นf เพื่อรางวัลสะสมขั้นสุดท้ายและพยายามที่จะเพิ่มมูลค่าของf เราเรียกวิธีนี้ผลตอบแทน thresholded ฟังก์ชันวัตถุประสงค์ ฟังก์ชั่นนี้จะช่วยให้เรามีวัตถุประสงค์ที่จะได้รับการเลือกกลยุทธ์ที่ดีที่สุดสำหรับหมดเวลาเกมศูนย์รวม, เช่นหุ่นยนต์ฟุตบอลซึ่งมีเป้าหมายที่จะเป็นผู้ชนะ: จะไปข้างหน้าของฝ่ายตรงข้ามหลังจากที่จำนวนขั้นตอนบางเวลา การเสนอนโยบายดังกล่าวโดเมนเป็นสิ่งหนึ่งที่ช่วยเพิ่มความน่าจะเป็นของการเป็นไปข้างหน้าในตอนท้ายของเกม เช่นนโยบายโดยทั่วไปจะไม่คงที่: การดำเนินการที่เหมาะสมจากรัฐได้รับขึ้นอยู่กับจำนวนtimesteps ที่เหลือและความแตกต่างของคะแนนปัจจุบัน ในบทความนี้เราจะนำเสนอขั้นตอนวิธีการที่แน่นอนสำหรับการค้นหานโยบายที่เหมาะสมสำหรับผลตอบแทน-thresholded MDPs แต่เวลาทำงานของอัลกอริทึมนี้มีการพึ่งพาอาศัยสมการกำลังสองกับจำนวนของรัฐในMDP และความยาวของขอบฟ้าเวลา สำหรับMDPs ที่มีช่องว่างขนาดใหญ่ของรัฐหรือขอบฟ้าเวลานานที่แน่นอนขั้นตอนวิธีการอาจจะยาก ดังนั้นเราจึงตรวจสอบความหลากหลายของเทคนิควิธีการแก้ปัญหาโดยประมาณ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

กระบวนการตัดสินใจแบบ ( mdps ) เป็นเครื่องมือที่มีประสิทธิภาพสำหรับ
วางแผนในการแสดงตนของความไม่แน่นอน mdps ให้
เสียงตามทฤษฎี หมายถึงการบรรลุที่ดีที่สุดรางวัล
ในความไม่แน่นอน โดเมน
ปัญหา MDP มาตรฐานคือการหานโยบายπ : S → keyboard - key - name ที่แผนที่ระบุการกระทำดังกล่าวว่า ผลตอบแทนระยะยาวสะสม

บางถูกขยายใหญ่สุดตามวัตถุประสงค์ของฟังก์ชัน เหนือขอบฟ้าเวลา
อนันต์ฟังก์ชันวัตถุประสงค์โดยรวมของลดราคา
รางวัลหรืออัตราเฉลี่ยรางวัลเป็น T → keyboard - key - name ∞ ( ? ;
) ? เมื่อขอบฟ้าเวลา จำกัด ปัจจัยส่วนลดไม่
ต้องการและเป้าหมายการทำงานปกติคือผลรวมของผลตอบแทนที่ได้รับในแต่ละครั้ง

ตอน งานของเราคือ motivated โดยซีโร่ซัมเกมด้วยคะแนนและ
เวลาที่จำกัด โดยเฉพาะหุ่นยนต์ฟุตบอล ในการตั้งเวลา zerosum
เกมส์ชนะคู่แข่งสำคัญ
มากกว่าคะแนนสุดท้าย ดังนั้น ทีมที่แพ้
ใกล้จบของเกมที่ควรจะเล่นเลยเถิด

ลิขสิทธิ์ C 2007 สมาคมเพื่อความก้าวหน้าของปัญญาประดิษฐ์
( www.aaai . org ) สงวนลิขสิทธิ์ .
พยายามแม้คะแนนแม้ว่ากลยุทธ์ที่ก้าวร้าวให้
ฝ่ายตรงข้ามได้ง่ายขึ้น คะแนน ตํา และ เวโลโซ
หารือถึงวิธีการที่ทีมเล่นฟุตบอลหุ่นยนต์สามารถเปลี่ยน
เล่น ( กลยุทธ์ทีมระดับสูง ) ขึ้นอยู่กับปัจจัยต่างๆเช่น
เวลาที่เหลือในเกมและคะแนนที่แตกต่าง ? ;
) ? อย่างไรก็ตาม การเลือกกลยุทธ์นี้เป็นมือจูนโดยใช้
กฎเช่นง่าย " ถ้าทีมเรากำลังจะแพ้ และมีน้อย
กว่า 1 นาทีที่เหลือ เล่นเลยเถิด " .
ในกระดาษนี้เราพิจารณา
ฟังก์ชันวัตถุประสงค์ทางเลือกสำหรับ mdps ฮอไรซอนจำกัด มากกว่าการเพิ่มรางวัลสะสมมากกว่า
H เวลาขั้นตอน เราใช้ฟังก์ชันเกณฑ์
F เพื่อรางวัลสะสมสุดท้ายและแสวงหาเพื่อเพิ่ม
ค่า F . เราเรียกนี้ thresholded รางวัล
วัตถุประสงค์ของฟังก์ชัน นี้มีฟังก์ชั่นช่วยให้เราได้รับการเลือกกลยุทธ์ที่เหมาะสมสำหรับ

หมด ศูนย์รวมเกมเช่นหุ่นยนต์เล่นฟุตบอล ซึ่งมีเป้าหมายที่จะชนะ : จะไปข้างหน้า
ของฝ่ายตรงข้ามหลังจากขั้นตอนที่เวลา นโยบายที่ดีที่สุด
เช่นโดเมนเป็นหนึ่งที่เพิ่มความน่าจะเป็นของการ
ล่วงหน้าที่ส่วนท้ายของเกม เช่น
นโยบายทั่วไปจะติจิ : เหมาะสมกระทำ
จากให้รัฐขึ้นอยู่กับจำนวน timesteps ที่เหลือ
และผลต่างคะแนนปัจจุบันในกระดาษนี้เรา
ปัจจุบันแน่นอนขั้นตอนวิธีสำหรับการหานโยบายที่เหมาะสมสำหรับ mdps รางวัล
thresholded . อย่างไรก็ตาม เวลาทํางานของ
ขั้นตอนวิธีนี้มียอดการพึ่งพาจำนวน
รัฐใน MDP และความยาวของเวลาที่ขอบฟ้า สำหรับ
mdps ที่มีขนาดใหญ่ของรัฐเป็นหรือขอบเขตเวลาที่แน่นอนขั้นตอนวิธี
อาจจะแก่นแก้ว เราจึงศึกษา
เทคนิคที่หลากหลายโซลูชั่นประมาณ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.