The aim of this paper is to address

The aim of this paper is to address recognition of natural human actions in diverse and realistic video settings. This challenging but important subject has mostly been ignored in the past due to several problems one of which is the lack of realistic and annotated video datasets. Our first contribution is to address this limitation and to investigate the use of movie scripts for automatic annotation of human actions in videos. We evaluate alternative methods for action retrieval from scripts and show benefits of a text-based classifier. Using the retrieved action samples for visual learning, we next turn to the problem of action classification in video. We present a new method for video classification that builds upon and extends several recent ideas including local space-time features, space-time pyramids and multichannel non-linear SVMs. The method is shown to improve state-of-the-art results on the standard KTH action dataset by achieving 91.8% accuracy. Given the inherent problem of noisy labels in automatic annotation, we particularly investigate and show high tolerance of our method to annotation errors in the training set. We finally apply the method to learning and classifying challenging action classes in movies and show promising results. 1. Introduction In the last decade the field of visual recognition had an outstanding evolution from classifying instances of toy objects towards recognizing the classes of objects and scenes in natural images. Much of this progress has been sparked by the creation of realistic image datasets as well as by the new, robust methods for image description and classification. We take inspiration from this progress and aim to transfer previous experience to the domain of video recognition and the recognition of human actions in particular. Existing datasets for human action recognition (e.g. [15], see figure 8) provide samples for only a few action classes recorded in controlled and simplified settings. This stands in sharp contrast with the demands of real applications focused on natural video with human actions subjected to inFigure 1. Realistic samples for three classes of human actions: kissing; answering a phone; getting out of a car. All samples have been automatically retrieved from script-aligned movies. dividual variations of people in expression, posture, motion and clothing; perspective effects and camera motions; illumination variations; occlusions and variation in scene surroundings. In this paper we address limitations of curren

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

จุดประสงค์ของเอกสารนี้คือการรับรู้ที่อยู่ของธรรมชาติมนุษย์การตั้งค่าวิดีโอที่หลากหลาย และสมจริง ซึ่งท้าทาย แต่ส่วนใหญ่ถูกละเว้นเรื่องในอดีตเนื่องจากปัญหาหนึ่งที่สำคัญคือขาดของ datasets วิดีโอจริง และประกอบ ส่วนแรกของเราคือ การข้อจำกัดนี้ และตรวจสอบการใช้งานสคริปต์ภาพยนตร์สำหรับคำอธิบายโดยอัตโนมัติของการดำเนินการที่มนุษย์ในวิดีโอ เราประเมินวิธีอื่นสำหรับการเรียกการดำเนินการจากสคริปต์ และแสดงประโยชน์ของ classifier ที่ข้อ ใช้ตัวอย่างการดึงข้อมูลสำหรับแสดงผลการเรียนรู้ เราถัดไปเปิดการจัดประเภทการดำเนินการในวิดีโอ เรานำเสนอวิธีการใหม่ในการจัดประเภทวิดีโอที่สร้างขึ้น และขยายความคิดล่าสุดหลายที่รวมทั้งคุณลักษณะเฉพาะ space-time, space-time ปีระมิด และ SVMs แบบไม่เชิงเส้น แสดงวิธีการปรับปรุงผลลัพธ์รัฐ-of-the-art บนชุดข้อมูลมาตรฐาน KTH ดำเนินบรรลุ 91.8% ความถูกต้อง กำหนดปัญหาโดยธรรมชาติของป้ายคะในคำอธิบายโดยอัตโนมัติ เราโดยเฉพาะอย่างยิ่งตรวจสอบ และแสดงสูงค่าเผื่อวิธีของเราในคำอธิบายข้อผิดพลาดในชุดฝึกอบรมด้วย เราก็ใช้วิธีการเรียน และท้าทายการดำเนินการสอนในภาพยนตร์ประเภท และแสดงแนวโน้มผล 1. แนะนำในด้านการรับรู้ภาพมีวิวัฒนาการโดดเด่นจากการจัดประเภทของของเล่นในทศวรรษวัตถุต่อการจดจำประเภทของวัตถุและฉากในภาพธรรมชาติ มากของความก้าวหน้านี้ได้ถูกจุดประกาย โดยการสร้างของ datasets รูปจริง เป็นวิธีการใหม่ แข็งแกร่งสำหรับภาพคำอธิบายและจัดประเภท เราใช้แรงบันดาลใจจากนี้ความก้าวหน้า และมุ่งมั่นที่จะถ่ายโอนประสบการณ์ก่อนหน้านี้ในโดเมนของการแสดงผลและการรับรู้การกระทำของมนุษย์โดยเฉพาะ Datasets ที่มีอยู่สำหรับการรับรู้ของมนุษย์ (เช่น [15], ดูรูป 8) ตัวอย่างสำหรับบันทึกเพียงไม่กี่ดำเนินการสอนในการควบคุม และประยุกต์การตั้งค่า นี้หมายถึงในความคมชัดคมชัดกับความต้องการของการใช้งานจริงเน้นวิดีโอธรรมชาติกับมนุษย์การดำเนินการ inFigure 1 ตัวอย่างสมจริงสำหรับชั้นสามของมนุษย์ดำเนินการ: จูบ ตอบโทรศัพท์ เดินทางออกจากรถ ดึงตัวอย่างทั้งหมดจากภาพยนตร์สคริปต์จัดตำแหน่งโดยอัตโนมัติ dividual การเปลี่ยนแปลงของคนในนิพจน์ ท่าทาง การเคลื่อนไหว และเสื้อ ผ้า ลักษณะมุมมองและกล้องเคลื่อนไหว รูปแบบรัศมี occlusions และการเปลี่ยนแปลงในสภาพแวดล้อมของฉาก ในเอกสารนี้ เราข้อจำกัดของ curren

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

จุดมุ่งหมายของการวิจัยนี้คือการอยู่ที่การรับรู้การกระทำของมนุษย์ธรรมชาติในการตั้งค่าวิดีโอที่มีความหลากหลายและเป็นจริง เรื่องนี้มีความท้าทาย แต่สิ่งที่สำคัญส่วนใหญ่ได้ถูกละเลยในอดีตที่ผ่านมาเนื่องจากปัญหาหลายซึ่งหนึ่งในนั้นคือการขาดความสมจริงและข้อเขียนชุดข้อมูลวิดีโอ ผลงานแรกของเราคือเพื่อแก้ไขข้อ จำกัด นี้และเพื่อตรวจสอบการใช้สคริปต์หนังสำหรับบันทึกย่อโดยอัตโนมัติจากการกระทำของมนุษย์ในวิดีโอ เราจะประเมินวิธีการทางเลือกสำหรับการเรียกการกระทำจากสคริปต์และผลประโยชน์แสดงของลักษณนามข้อความ ใช้ตัวอย่างการกระทำที่ดึงมาสำหรับการเรียนรู้ภาพที่เราเปิดต่อไปในการแก้ไขปัญหาการจัดหมวดหมู่การกระทำในวิดีโอ เรานำเสนอวิธีการใหม่สำหรับการจัดหมวดหมู่วิดีโอที่สร้างขึ้นและขยายความคิดที่ผ่านมาหลายคนรวมทั้งคุณสมบัติพื้นที่เวลาท้องถิ่นปิรามิดพื้นที่เวลาและหลายช่อง SVMs ไม่เชิงเส้น วิธีการแสดงให้เห็นว่าการปรับปรุงผลการรัฐของศิลปะในชุดข้อมูลที่ดำเนินการ KTH มาตรฐานการบรรลุความถูกต้อง 91.8% ได้รับปัญหาที่เกิดขึ้นโดยธรรมชาติของป้ายที่มีเสียงดังในคำอธิบายประกอบอัตโนมัติเราโดยเฉพาะอย่างยิ่งในการตรวจสอบและแสดงความอดทนสูงของวิธีการของเราที่จะมีข้อผิดพลาดคำอธิบายประกอบในชุดการฝึกอบรม ในที่สุดเราก็ใช้วิธีการที่จะเรียนรู้และการเรียนการแบ่งประเภทของการกระทำที่ท้าทายในภาพยนตร์และแสดงผลที่มีแนวโน้ม 1. บทนำในทศวรรษที่ผ่านมาด้านการรับรู้ภาพมีวิวัฒนาการที่โดดเด่นจากการจำแนกกรณีของวัตถุของเล่นที่มีต่อการรับรู้ในชั้นเรียนของวัตถุและฉากในภาพที่เป็นธรรมชาติ มากของความคืบหน้านี้ได้รับการจุดประกายโดยการสร้างชุดข้อมูลภาพที่เหมือนจริงเช่นเดียวกับใหม่วิธีการที่มีประสิทธิภาพสำหรับรายละเอียดภาพและการจัดหมวดหมู่ เรามีแรงบันดาลใจจากความคืบหน้านี้และมุ่งมั่นที่จะถ่ายโอนประสบการณ์ที่ผ่านมากับโดเมนของการรับรู้วิดีโอและการรับรู้การกระทำของมนุษย์โดยเฉพาะอย่างยิ่ง ชุดข้อมูลที่มีอยู่สำหรับการรับรู้การกระทำของมนุษย์ (เช่น [15] โปรดดูรูปที่ 8) ให้ตัวอย่างเพียงไม่กี่ชั้นเรียนดำเนินการบันทึกไว้ในการตั้งค่าการควบคุมและเรียบง่าย นี้ยืนในคมชัดกับความต้องการของการใช้งานจริงที่มุ่งเน้นการวิดีโอธรรมชาติที่มีการกระทำของมนุษย์ภายใต้การ inFigure 1. ตัวอย่างจริงสำหรับสามชั้นเรียนของการกระทำของมนุษย์: จูบ; ตอบโทรศัพท์; เดินทางออกจากรถ ตัวอย่างทั้งหมดได้รับการดึงมาโดยอัตโนมัติจากภาพยนตร์สคริปต์ชิด dividual รูปแบบของผู้คนในการแสดงออกท่าทางการเคลื่อนไหวและเสื้อผ้า ผลกระทบที่มุมมองและการเคลื่อนไหวกล้อง; รูปแบบการส่องสว่าง; occlusions และการเปลี่ยนแปลงในสภาพแวดล้อมที่เกิดเหตุ ในบทความนี้เราอยู่ที่ข้อ จำกัด ของ Curren

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

วัตถุประสงค์ของบทความนี้คือการรับรู้ของมนุษย์ตามธรรมชาติที่อยู่กระทำในที่หลากหลายและมีเหตุผลการตั้งค่าวิดีโอ แต่ที่สำคัญเรื่องที่ท้าทายนี้ได้ถูกละเว้นส่วนใหญ่ในอดีตเนื่องจากการหนึ่ง ซึ่งปัญหาต่าง ๆ คือ ขาดความสมจริง และแสดงวิดีโอชุดข้อมูลผลงานแรกของเราคือไปยังที่อยู่ข้อ จำกัด นี้ และเพื่อศึกษาการใช้สคริปต์ภาพยนตร์สำหรับการจัดการอัตโนมัติของมนุษย์กระทำในวิดีโอ เราประเมินวิธีการทางเลือกสำหรับการดึงข้อมูลจากสคริปต์และแสดงผลประโยชน์ของข้อความลักษณนาม ใช้เรียกการกระทำตัวอย่างภาพการเรียนรู้ เราต่อไป ถึงปัญหาการกระทำของการจำแนกในวิดีโอเราเสนอวิธีการใหม่สำหรับวิดีโอประเภทที่สร้างขึ้น และขยายแนวคิดล่าสุดหลายรวมทั้งคุณลักษณะเวลาท้องถิ่น ปิรามิดกาล- อวกาศและหลายช่องแบบไม่เป็นเชิงเส้น . วิธีการแสดงเพื่อปรับปรุงผลลัพธ์ของการกระทำบนมาตรฐาน kth DataSet โดยบรรลุความถูกต้องพบท % ระบุปัญหาที่แท้จริงของอึกทึกป้ายในหมายเหตุประกอบโดยอัตโนมัติโดยเฉพาะอย่างยิ่งเราตรวจสอบและแสดงความอดทนสูงของวิธีการของเราในการจัดการข้อผิดพลาดในการตั้งค่า เราก็ใช้วิธีเรียนรู้และจัดชั้นเรียนการท้าทายในการดูหนังและแสดงผลลัพธ์ที่มีแนวโน้ม 1 .แนะนำในทศวรรษที่ผ่านมาเขตของการรับรู้ภาพ มีการวิวัฒนาการที่โดดเด่นจากกลุ่มอินสแตนซ์ของวัตถุของเล่นต่อการจดคลาสของวัตถุและฉากภาพธรรมชาติ มากของความก้าวหน้านี้ได้รับการจุดประกายโดยการสร้างข้อมูลภาพมีเหตุผลเช่นเดียวกับใหม่ , วิธีการที่แข็งแกร่งสำหรับรายละเอียดภาพและการจำแนกเราใช้แรงบันดาลใจจากความก้าวหน้าและมุ่งมั่นที่จะถ่ายทอดประสบการณ์ก่อนหน้านี้กับโดเมนของการรับรู้ภาพและการรับรู้ของมนุษย์ การกระทำโดยเฉพาะใน ข้อมูลที่มีอยู่สำหรับการยอมรับการกระทำของมนุษย์ ( เช่น [ 15 ] , ดูรูปที่ 8 ) ให้ตัวอย่างเพียงไม่กี่ชั้นเรียนการบันทึกควบคุมและง่ายในการตั้งค่าแห่งนี้ตั้งอยู่ในคมชัดกับความต้องการของการใช้งานจริง เน้นภาพธรรมชาติกับการกระทําของมนุษย์ภายใต้ infigure 1 อย่างมีเหตุผลสามประเภทของการกระทำของมนุษย์ : จูบ ; การตอบโทรศัพท์ รับมาจากในรถ ตัวอย่างทั้งหมดได้โดยอัตโนมัติดึงข้อมูลจากสคริปต์ชิดภาพยนตร์ การเปลี่ยนแปลง dividual ของประชาชนในการแสดงออก ท่าทาง การเคลื่อนไหว และเสื้อผ้าผลของการเคลื่อนไหวกล้อง รัศมีการเปลี่ยนแปลง ; occlusions และการเปลี่ยนแปลงในสภาพแวดล้อมที่ฉาก ในกระดาษนี้เราแก้ไขข้อจำกัดของ curren

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.