This paper investigates some condit

This paper investigates some conditions under which polarized user appraisals gathered throughout the course of a vocal interaction between a machine and a human can be integrated in a reinforcement learning-based dialogue manager. More specifically, we discuss how this information can be cast into socially-inspired rewards for speeding up the policy optimisation for both efficient task completion and user adaptation in an online learning setting. For this purpose a potential-based reward shaping method is combined with a sample efficient reinforcement learning algorithm to offer a principled framework to cope with these potentially noisy interim rewards. The proposed scheme will greatly facilitate the system's development by allowing the designer to teach his system through explicit positive/negative feedbacks given as hints about task progress, in the early stage of training. At a later stage, the approach will be used as a way to ease the adaptation of the dialogue policy to specific user profiles. Experiments carried out using a state-of-the-art goal-oriented dialogue management framework, the Hidden Information State (HIS), support our claims in two configurations: firstly, with a user simulator in the tourist information domain (and thus simulated appraisals), and secondly, in the context of man–robot dialogue with real user trials.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

กระดาษนี้ตรวจสอบเงื่อนไขบางอย่างที่โพลาไรซ์ผู้ประเมินรวบรวมตลอดหลักสูตรของการโต้ตอบระหว่างมนุษย์และเครื่องจักรที่ vocal สามารถรวมในการจัดการเรียนรู้โดยใช้บทสนทนาเสริม อื่น ๆ โดยเฉพาะ เราหารือวิธีโยนข้อมูลนี้จะเป็นแรงบันดาลใจสังคมรางวัลสำหรับเร่งนโยบายการเพิ่มประสิทธิภาพสำหรับทั้งงานที่มีประสิทธิภาพสมบูรณ์และผู้ใช้ปรับตัวในการเรียนรู้ออนไลน์ สำหรับวัตถุประสงค์นี้ รางวัลศักยภาพตามที่วิธีการสร้างรูปร่างพร้อมกับอย่างมีประสิทธิภาพเสริมสร้างเรียนรู้อัลกอริทึมให้กรอบ principled เพื่อรับมือกับรางวัลกาลเหล่านี้อาจเสียงดัง โครงร่างเสนอมากจะช่วยการพัฒนาของระบบ โดยให้แบบสอนรู้สึกบวก/ลบชัดเจนที่กำหนดให้เป็นคำแนะนำเกี่ยวกับความก้าวหน้า ในระยะแรก ๆ ของการฝึกอบรมระบบของเขา วิธีจะใช้เป็นวิธีการง่ายปรับนโยบายเจรจากับโพรไฟล์ผู้ใช้ในภายหลัง ทดลองดำเนินการโดยใช้กรอบงานจัดการเจรจาเป้าหมายรัฐ-of-the-art การซ่อนข้อมูลสถานะ (HIS), สนับสนุนการเรียกร้องของเราในโครงแบบสอง: ประการแรก กับจำลองผู้ใช้ ในแหล่งท่องเที่ยวข้อมูลโดเมน (และเลียนแบบดังนั้นการประเมินผล), และประการที่สอง ในบริบทของมนุษย์หุ่นยนต์พูดคุยกับผู้ใช้จริงทดลอง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

บทความนี้สำรวจเงื่อนไขบางอย่างตามที่ผู้ประเมินขั้วรวบรวมได้ตลอดหลักสูตรของการทำงานร่วมกันระหว่างแกนนำเครื่องและมนุษย์สามารถบูรณาการการเรียนรู้ในการเสริมแรงตามผู้จัดการการเจรจาที่ โดยเฉพาะอย่างยิ่งที่เราจะหารือวิธีการที่ข้อมูลนี้สามารถโยนลงไปในผลตอบแทนสังคมที่เป็นแรงบันดาลใจสำหรับการเร่งขึ้นการเพิ่มประสิทธิภาพของนโยบายสำหรับเสร็จงานทั้งที่มีประสิทธิภาพและการปรับตัวของผู้ใช้ในการตั้งค่าการเรียนรู้ออนไลน์ เพื่อจุดประสงค์นี้เป็นรางวัลที่มีศักยภาพตามวิธีการสร้างจะถูกรวมกับตัวอย่างขั้นตอนวิธีการเรียนรู้ที่มีประสิทธิภาพการเสริมแรงที่จะนำเสนอกรอบจริยธรรมที่จะรับมือกับผลตอบแทนระหว่างกาลนี้มีเสียงดังอาจเกิดขึ้น โครงการที่เสนอจะช่วยอำนวยความสะดวกในการพัฒนาของระบบโดยการอนุญาตให้นักออกแบบในการสอนผ่านระบบของเขาอย่างชัดเจนบวก / ตอบลบให้เป็นคำแนะนำเกี่ยวกับความคืบหน้าของงานในช่วงเริ่มต้นของการฝึกอบรม ในขั้นตอนต่อมาวิธีการที่จะใช้เป็นวิธีการเพื่อความสะดวกในการปรับตัวของนโยบายการเจรจากับโปรไฟล์ของผู้ใช้เฉพาะที่ การทดลองดำเนินการโดยใช้รัฐของศิลปะกรอบการจัดการเจรจาเป้าหมายที่มุ่งเน้นข้อมูลที่ซ่อนอยู่ของรัฐ (HIS) สนับสนุนการเรียกร้องของเราในสองกำหนดค่า: ตอนแรกที่มีการจำลองผู้ใช้ในโดเมนข้อมูลการท่องเที่ยว (และประเมินจำลองจึง ) และประการที่สองในบริบทของการสนทนาที่มนุษย์หุ่นยนต์กับการทดลองใช้จริง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

บทความนี้เป็นการศึกษาการประเมินผู้ใช้บางเงื่อนไขที่ขั้วรวมตลอดหลักสูตรปฏิสัมพันธ์เสียงระหว่างเครื่องจักรกับมนุษย์สามารถบูรณาการในการเรียนรู้แบบเสริมกำลังจัดการการสนทนาตาม มากขึ้นโดยเฉพาะเราหารือถึงวิธีการที่ข้อมูลนี้จะถูกโยนลงไปในสังคมแรงบันดาลใจรางวัลเพื่อเร่งเพิ่มประสิทธิภาพนโยบายมีประสิทธิภาพ งานเสร็จ และการปรับตัวของผู้ใช้ในการเรียนรู้ออนไลน์ การตั้งค่าสำหรับวัตถุประสงค์นี้ศักยภาพตามรางวัลรูปร่างวิธีรวมกับตัวอย่างที่มีประสิทธิภาพการเสริมแรงการเรียนรู้ขั้นตอนวิธีการเสนอกรอบหลักการที่จะรับมือกับรางวัลอาจหนวกหูกาลเหล่านี้วิธีการที่นำเสนอจะช่วยอำนวยความสะดวกในการพัฒนาระบบ โดยให้นักออกแบบที่จะสอนผ่านระบบของเขาอย่างชัดเจน บวก / ลบ ตอบรับให้คําแนะนําเกี่ยวกับความคืบหน้าของงาน ในช่วงแรกของการฝึก ในขั้นตอนภายหลัง วิธีการนี้สามารถใช้เป็นวิธีที่ง่ายของการปรับนโยบายที่โปรไฟล์ผู้ใช้ที่เฉพาะเจาะจงการทดลองโดยใช้กรอบแนวคิดการจัดการที่ทันสมัยเป้าหมายที่มุ่งเน้นการสนทนา , ข้อมูลที่ซ่อนอยู่รัฐ ( ของเขา ) , สนับสนุนการเรียกร้องของเราใน 2 รูปแบบ คือ มีผู้ใช้จำลองในข้อมูลโดเมน ( และดังนั้นการประเมินค่า ) , และประการที่สอง , ในบริบทของมนุษย์และหุ่นยนต์สนทนากับการทดลองใช้จริง

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.