The article addresses the problem of temporal data mining, in particular classification, with
support vector machines (SVM). If no application-specific knowledge about the nature of
the time series is available, general purpose time series similarity measures can be used
as kernel functions in SVM. The article compares several possible similarity measures,
namely the linear Euclidean, triangle, polynomial probabilistic (with two variants), and
shape space distances (SSD), as well as the nonlinear measures dynamic time warping
(DTW), longest common subsequences, and time warp edit distance (TWED). Nonlinear
(i.e., ‘‘elastic’’) measures take a nonlinear scaling of the time series in the time domain into
account. First, these measures are used in combination with a nearest neighbor classifier,
then the various similarity measures are taken to compute the kernel matrices for SVM.
Simulation experiments with twenty publicly available benchmark data sets show, that
with regard to classification accuracy, TWED performs very well over all measures, while
SSD is the best linear measure. SSD has the lowest run-times, the fastest nonlinear measure
is DTW. These claims are further investigated by applying statistical tests. With the results
presented in this article and results from related investigations that are considered as well,
we want to support practitioners or scholars in answering the following question: Which
measure should be looked at first if accuracy is the most important criterion, if an applica-
tion is time-critical, or if a compromise is needed?
บทความที่อยู่ปัญหาของการทำเหมืองข้อมูลชั่วคราว ในเฉพาะ classification กับ
สนับสนุนเครื่องแบบเวกเตอร์ (SVM) ถ้าแอพลิเคชัน specific ความรู้เกี่ยวกับธรรมชาติของ
ชุดเวลามีเวลาว่าง ทั่วไปวัตถุประสงค์ที่สามารถใช้วัดความคล้ายชุด
เป็นฟังก์ชันเคอร์เนลใน SVM บทความเปรียบเทียบมาตรการความคล้ายคลึงกันได้หลายอย่าง,
คือเส้น Euclidean สามเหลี่ยม probabilistic (มีตัวแปรสอง), พหุนาม และ
รูปร่างระยะทางพื้นที่ (SSD), มาตรการไม่เชิงเส้นเวลาแบบไดนามิก warping
(DTW), subsequences สูงทั่วไป และแปรปรวนเวลาแก้ไขระยะ (TWED) ไม่เชิงเส้น
(เช่น, ''ยืดหยุ่น '') มาตรการที่ใช้มาตราส่วนแบบไม่เชิงเส้นของลำดับเวลาในโดเมนเวลาเป็น
บัญชี ครั้งแรก มาตรการเหล่านี้จะใช้ร่วมกับเพื่อนบ้านที่ใกล้ที่สุด classifier,
แล้วมาตรการคล้ายถูกนำไปคำนวณเมทริกซ์เคอร์เนลสำหรับ SVM
จำลองการทดลอง ด้วยชุดข้อมูลมาตรฐานเผย 20 แสดง ที่
เกี่ยวกับความถูกต้องของ classification, TWED ทำดีกว่าวัดทั้งหมด ในขณะที่
SSD เป็นการวัดเชิงเส้นดีที่สุด SSD มีราคาต่ำสุดรันเวลา วัดไม่เชิงเส้นที่เร็วที่สุด
คือ DTW เรียกร้องเหล่านี้มีสอบสวนเพิ่มเติม โดยใช้สถิติทดสอบ มีผล
แสดงในบทความนี้และผลจากการตรวจสอบที่เกี่ยวข้องที่ถือว่าดี,
เราต้องสนับสนุนผู้หรือนักวิชาการในการตอบคำถามต่อไปนี้: ที่
วัดควรดูที่ first ถ้าถูกต้องเป็นเกณฑ์สำคัญที่สุด ถ้า applica มี-
สเตรชันเป็นเวลาสำคัญ หรือ ถ้าต้องการประนีประนอมหรือไม่
การแปล กรุณารอสักครู่..