Traditional Reinforcement Learning

Traditional Reinforcement Learning (RL) has focused on problems involving many states and few actions, such as simple grid worlds. Most real world problems, however, are of the opposite type, Involving Few relevant states and many actions. For example, to return home from a conference, humans identify only few subgoal states such as lobby, taxi, airport etc. Each valid behavior connecting two such states can be viewed as an action, and there are trillions of them. Assuming the subgoal identification problem is already solved, the quality of any RL method---in real-world settings---depends less on how well it scales with the number of states than on how well it scales with the number of actions. This is where our new method T-Learning excels, by evaluating the relatively few possible transits from one state to another in a policy-independent way, rather than a huge number of state-action pairs, or states in traditional policy-dependent ways. Illustrative experiments demonstrate that performance improvements of T-Learning over Q-learning can be arbitrarily large.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เรียนเสริมแบบดั้งเดิม (RL) ได้เน้นปัญหาที่เกี่ยวข้องกับหลายรัฐและการดำเนินการน้อย เช่นตารางอย่างโลก อย่างไรก็ตาม มีปัญหาจริงมากที่สุดในโลก ชนิดตรงกันข้าม อเมริกาเกี่ยวไม่เกี่ยวข้อง และการดำเนินการหลาย ตัวอย่าง กลับบ้านจากการประชุม มนุษย์ระบุเพียงไม่กี่ subgoal อเมริกาล็อบบี้ แท็กซี่ สนามบินฯลฯ สามารถดูพฤติกรรมแต่ละถูกต้องเชื่อมต่อสองสถานะดังกล่าวเป็นการดำเนินการ และมี trillions ของพวกเขา สมมติว่า ได้มีแก้ไขปัญหารหัส subgoal คุณภาพของวิธีใด ๆ RL-ในโลกจริงการตั้งค่า---ขึ้นน้อยลงด้วยวิธีการปรับขนาดด้วยหมายเลขของอเมริกามากกว่าในวิธีการที่ดีการปรับขนาดด้วยหมายเลขของการดำเนินการ โดยที่วิธีการใหม่ของเราเรียนรู้ T แก่ง โดยประเมิน transits ได้ค่อนข้างน้อยจากรัฐหนึ่งไปยังอีกในทางนโยบายอิสระ จำนวนมากของรัฐดำเนินการคู่ หรืออเมริกาดั้งเดิมขึ้นอยู่กับนโยบายวิธีการ แสดงการทดลองแสดงให้เห็นว่า การปรับปรุงประสิทธิภาพของ T-เรียนมากกว่าเรียนรู้ Q อาจมีขนาดใหญ่โดย

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

แบบดั้งเดิมเสริมสร้างการเรียนรู้ (RL) ได้ให้ความสำคัญเกี่ยวกับปัญหาที่เกี่ยวข้องกับหลายรัฐและการกระทำไม่กี่เช่นโลกตารางง่าย ส่วนใหญ่ปัญหาโลกแห่งความจริง แต่เป็นประเภทตรงข้ามที่เกี่ยวข้องกับรัฐที่เกี่ยวข้องไม่กี่และการกระทำหลาย ๆ ยกตัวอย่างเช่นที่จะกลับบ้านจากการประชุมมนุษย์ระบุรัฐ subgoal เพียงไม่กี่เช่นล็อบบี้รถแท็กซี่สนามบิน ฯลฯ แต่ละพฤติกรรมที่ถูกต้องในการเชื่อมต่อสองประเทศดังกล่าวสามารถถูกมองว่าเป็นการกระทำและมีล้านล้านพวกเขา สมมติว่าปัญหาประชาชน subgoal จะแก้ไขแล้วคุณภาพของวิธี RL ใด ๆ --- ในการตั้งค่าโลกแห่งความจริง --- ขึ้นอยู่น้อยกับวิธีที่ดีตาชั่งมันมีจำนวนของรัฐกว่ากับวิธีที่ดีตาชั่งมันมีจำนวนของการกระทำ นี่คือที่ excels วิธีการใหม่ของเรา T-Learning, โดยการประเมินการผ่านไปได้ค่อนข้างน้อยจากรัฐหนึ่งไปยังอีกในทางนโยบายที่เป็นอิสระมากกว่าจำนวนมากของคู่รัฐกระทำหรือกล่าวในรูปแบบนโยบายขึ้นอยู่กับแบบดั้งเดิม เป็นตัวอย่างการทดลองแสดงให้เห็นว่าการปรับปรุงประสิทธิภาพการทำงานของ T-Learning กว่า Q-การเรียนรู้อาจมีขนาดใหญ่โดยพล

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การเรียนรู้แบบเสริมแรง ( RL ) มุ่งเน้นไปที่ปัญหาที่เกี่ยวข้องกับหลายรัฐและการกระทำบางอย่าง เช่น โลกตารางอย่างง่าย ที่สุดของโลกที่แท้จริงของปัญหา แต่เป็นประเภทตรงข้าม เกี่ยวข้องกับรัฐและการกระทำที่เกี่ยวข้องน้อยมาก ตัวอย่างเช่น กลับจากการประชุมที่ มนุษย์ ระบุรัฐ subgoal เพียงไม่กี่เช่นล็อบบี้ , รถแท็กซี่ , รถ ฯลฯแต่ละที่ถูกต้องพฤติกรรมการเชื่อมต่อสองรัฐดังกล่าวสามารถดู การกระทำ และมี trillions ของพวกเขา สมมุติว่า การระบุปัญหา subgoal มีการแก้ไขแล้ว คุณภาพของวิธีการในการตั้งค่าจริง RL --- --- ขึ้นอยู่กับว่ามันสมดุลกับจำนวนของอเมริกามากกว่าว่ามันสมดุลกับจำนวนของการกระทำ นี้เป็นวิธีที่ t-learning excels ใหม่ของเรา ,โดยการประเมินไม่กี่ค่อนข้างเป็นไปได้ transits จากรัฐหนึ่งไปยังอีกในนโยบายอิสระที่มากกว่าตัวเลขขนาดใหญ่ของรัฐปฏิบัติการคู่ หรือรัฐในแบบดั้งเดิมขึ้นอยู่กับนโยบายทาง ตัวอย่างการทดลองแสดงให้เห็นว่า การปรับปรุงประสิทธิภาพของ t-learning กว่า q-learning สามารถโดยพลการ ขนาดใหญ่

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.