A reinforcement learning (RL) agent

A reinforcement learning (RL) agent interacts with a probabilistic environment for the purpose of maximizing some notion of a long-term reward [32]. At each point in time, the agent does not necessarily pursue the action that offers the highest immediate reward; instead, the agent strives to take the action that provides the best cumulative reward over time. To learn how to do this, the agent needs to explore its environment carefully: Early exploitation (i.e., picking the action that seems most profitable in the long term at each point in time based on acquired knowledge) may result in an agent stuck with low-performing policies, while too much exploration (i.e., trying different actions) may cause the agent to take a long time to settle on an optimal policy. Moreover, the agent must never stop exploring completely if it is to adapt its policy to changes in the environment (e.g., program phases).

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

การเสริมสร้างการเรียนรู้ที่เป็นตัวแทน (RL) มีปฏิสัมพันธ์กับสภาพแวดล้อมของความน่าจะเป็นเพื่อวัตถุประสงค์ของการเพิ่มความคิดของรางวัลในระยะยาว [32] บาง ที่จุดในแต่ละครั้งตัวแทนไม่จำเป็นต้องติดตามการกระทำที่มีผลตอบแทนสูงที่สุดในทันที; แทนตัวแทนมุ่งมั่นที่จะดำเนินการที่ให้ผลตอบแทนสะสมที่ดีที่สุดเมื่อเวลาผ่านไป เพื่อเรียนรู้วิธีการทำเช่นนี้ตัวแทนความต้องการในการสำรวจสภาพแวดล้อมอย่างระมัดระวังการแสวงหาผลประโยชน์ในช่วงต้น (เช่นการเลือกการกระทำที่ดูเหมือนว่า PROFI ที่สุดตารางยในระยะยาวที่จุดในแต่ละครั้งตามความรู้ที่ได้มา) อาจส่งผลให้ตัวแทนติดอยู่กับนโยบายที่มีประสิทธิภาพต่ำในขณะที่ ข้อเท็จจริงที่มากเกินไป (เช่นพยายามกระทำที่แตกต่างกัน) อาจทำให้ตัวแทนที่จะใช้เวลานานในการตั้งอยู่บนนโยบายที่ดีที่สุด ยิ่งไปกว่านั้นตัวแทนจะต้องไม่หยุดสำรวจอย่างสมบูรณ์ถ้ามันคือการปรับให้เข้ากับนโยบายการเปลี่ยนแปลงในสภาพแวดล้อม (เช่นขั้นตอนโปรแกรม)

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

เสริมสร้างการเรียนรู้ (RL) บริษัทตัวแทนการโต้ตอบกับสภาพแวดล้อม probabilistic เพื่อเพิ่มแนวคิดบางอย่างของรางวัลระยะยาว [32] ในแต่ละจุดในเวลา ตัวแทนไม่จำเป็นต้องติดตามการดำเนินการที่ให้รางวัลทันทีสูงสุด แทน แทนมุ่งมั่นดำเนินการที่ให้รางวัลสะสมส่วนช่วงเวลา เรียนรู้วิธีการทำเช่นนี้ ตัวแทนต้องสำรวจสภาพแวดล้อมอย่างระมัดระวัง: ใช้ประโยชน์จากต้น (เช่น การดำเนินการการเบิกสินค้าที่เหมือน ตารางรับส่วนใหญ่ในระยะยาวที่แต่ละจุดในเวลาตามความรู้ที่ได้รับ) อาจส่งผลให้ตัวแทนที่ติดอยู่กับการดำเนินการต่ำนโยบาย ขณะสำรวจมากเกินไป (เช่น พยายามที่แตกต่างกันการ) อาจทำให้ตัวแทนต้องใช้เวลานานตานโยบายเหมาะสมได้ นอกจากนี้ ตัวแทนต้องไม่หยุดสำรวจอย่างสมบูรณ์ปรับนโยบายการเปลี่ยนแปลงในสภาพแวดล้อม (เช่น โปรแกรมระยะ)

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ขยายการเรียนรู้( RL ) Agent ที่มี สภาพแวดล้อม probabilistic สำหรับวัตถุประสงค์ในการเพิ่มความคิดบางอย่างเป็นการตอบแทนระยะยาวที่[ 32 ] ในแต่ละจุดในเวลาที่ agent จะไม่ดำเนินคดีกับผู้กระทำที่จัดให้บริการเงินรางวัลสูงที่สุดในทันทีที่ Agent จำเป็นต้องแทนที่ความพยายามในการดำเนินการที่จะให้เงินรางวัลสะสมที่ดีที่สุดในช่วงเวลา ในการเรียนรู้การทำสิ่งนี้ที่ Agent ความต้องการเพื่อการสำรวจ สภาพแวดล้อม ด้วยความระมัดระวัง:ช่วงต้นการตักตวงประโยชน์(เช่นการที่การดำเนินการที่ดูเหมือนจะมากที่สุด profi โต๊ะในระยะยาวในแต่ละจุดในเวลาที่ใช้ได้รับความรู้)อาจส่งผลให้ในที่ Agent ติดอยู่กับต่ำ - ทำนโยบายให้มากเกินไปในขณะที่การสำรวจ(เช่นกัน)อาจทำให้ Agent เพื่อใช้นานมากกว่าจะตั้งอยู่บนที่ได้ผลดีที่สุดนโยบาย. ยิ่งไปกว่านั้นAgent ที่จะต้องไม่เคยหยุดอย่างสมบรูณ์แบบเพื่อการสำรวจถ้าเป็นการปรับเปลี่ยนนโยบายของการเปลี่ยนแปลงใน สภาพแวดล้อม ที่(เช่นระยะโปรแกรม)

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.