a Boolean variable that is either true or false. Numerical variables have an order- ing and cannot be enumerated easily. Examples are temperature (e.g., 39.7 degrees centigrade), age (44 years), weight (56.3 kilograms), number of items (3 coffees), and altitude (11 meters below sea level). Categorical variables are typically subdi- vided into ordinal variables and nominal variables. Nominal variables have no log- ical ordering. For example, Booleans (true and false), colors (Red, Yellow, Green), and EU countries (Germany, Italy, etc.) have no commonly agreed upon logical or- dering. Ordinal variables have an ordering associated to it. For example, the result column in Table 3.2 refers to an ordinal variable that can have values “cum laude”, “passed”, and “failed”. For most applications, it would make sense to consider the value “passed” in-between “cum laude” and “failed”.
Before applying any data mining technique the data is typically preprocessed, e.g., rows and columns may be removed for various reasons. For instance, columns with less relevant information should be removed beforehand to reduce the dimen- sionality of the problem. Instances that are clearly corrupted should also be re- moved. Moreover, the value of a variable for a particular instance may be missing or have the wrong type. This may be due to an error while recording the data, but it may also have a particular reason. For example, in Table 3.2 some course grades are missing (denoted by “–”). These missing values are not errors but contain valuable information. For some kinds of analysis, the missing course grade can be treated as “zero”, i.e., not taking the course is “lower” than the lowest grade. For other types of analysis, it may be that the values in such a column are mapped onto “yes” (participated in the course) and “no” (the entries that now have a “–”).
When comparing Tables 3.1, 3.2, and 3.3 with the event log shown in Table 1.1 it becomes obvious that data mining techniques make less assumptions about the format of the input data than process mining techniques. For example, in Table 1.1 there are two notions, events and cases, rather than the single notion of an instance (i.e., row in table). Moreover, events are ordered in time whereas in Tables 3.1, 3.2, and 3.3 the ordering of the rows has no meaning. For particular questions, it is possible to convert an event log into a simple data set for data mining. We will refer to this as feature extraction. Later, we will use feature extraction for various proposes, e.g., analyzing decisions in a discovered process models and clustering cases before process discovery so that each cluster has a dedicated process model.
After showing the basic input format for data mining and discussing typical questions, we classify data mining techniques into two main categories: supervised learning and unsupervised learning.
ตัวแปร Boolean ที่เป็นจริง หรือเท็จ ตัวแปรที่เป็นตัวเลขได้กำลังสั่งการ และไม่สามารถระบุได้อย่างง่ายดาย ตัวอย่างได้แก่อุณหภูมิ (เช่น 39.7 องศาเซนติเกรด), อายุ (ปี 44), น้ำหนัก (56.3 กิโลกรัม), หมายเลขสินค้า (กาแฟ 3), และความสูง (ต่ำกว่าระดับน้ำทะเล 11 เมตร) ตัวแปรที่แน่ชัดโดยทั่วไปมี subdi-vided เป็นเครื่องหมายสัญลักษณ์ตัวแปรและตัวแปรที่ระบุ ระบุตัวแปรได้ไม่ล็อก ical สั่ง ตัวอย่าง Booleans (ความจริงและเท็จ), สี (แดง เหลือง เขียว), และกลุ่มประเทศ EU (เยอรมนี อิตาลี ฯลฯ) มักไม่ตกลงตามตรรกะ หรือ -dering ตัวแปรเครื่องหมายสัญลักษณ์มีการสั่งซื้อที่เกี่ยวข้องกับมัน ตัวอย่าง คอลัมน์ผลลัพธ์ในตาราง 3.2 อ้างถึงตัวแปรเครื่องหมายสัญลักษณ์ที่สามารถมีค่า "cum laude" "ผ่าน" และ "ล้มเหลว" สำหรับการใช้งานมากที่สุด มันจะทำให้ความรู้สึกในการพิจารณาค่า "ส่งผ่าน" ระหว่าง "cum laude" และ "ล้มเหลว"ก่อนที่จะใช้เทคนิคเหมืองข้อมูลใด ๆ โดยทั่วไปมี preprocessed ข้อมูล เช่น แถวและคอลัมน์อาจถูกเอาออกสำหรับเหตุผลต่าง ๆ ตัวอย่าง คอลัมน์ที่ มีข้อมูลที่เกี่ยวข้องน้อยควรจะถูกเอาไว้ล่วงหน้าเพื่อลด sionality dimen ของปัญหา อินสแตนซ์ที่ชัดเจนเสียหายควรจะใหม่-ย้าย นอกจากนี้ ค่าของตัวแปรสำหรับอินสแตนซ์ที่เฉพาะอาจจะหายไป หรือมีชนิดไม่ถูกต้อง นี้อาจเกิดจากข้อผิดพลาดขณะบันทึกข้อมูล แต่มันอาจมีเหตุผลเฉพาะ ตัวอย่าง ในตาราง 3.2 เกรดบางหลักสูตรจะขาดหายไป (สามารถบุโดย " – ") ค่าเหล่านี้หายไปไม่มีข้อผิดพลาด แต่ประกอบด้วยข้อมูล สำหรับบางชนิดของการวิเคราะห์ ระดับหลักสูตรไม่สามารถเป็น "ศูนย์" เช่น ไม่มีหลักสูตรเป็น "ต่ำ" กว่าเกรดต่ำ การวิเคราะห์แบบอื่น ๆ มันอาจจะมีแม็ปค่าในคอลัมน์ "ใช่" (เข้าร่วมในหลักสูตร) และ "ไม่" (รายการขณะที่มีการ " – ")เมื่อเปรียบเทียบตาราง 3.1, 3.2 และ 3.3 กับบันทึกเหตุการณ์ที่แสดงในตาราง 1.1 จะเห็นได้ชัดว่า ข้อมูลเทคนิคการทำเหมืองแร่ทำให้น้อยกว่าสมมติฐานเกี่ยวกับรูปแบบของข้อมูลที่ป้อนเข้ากว่าเทคนิคกระบวนการทำเหมืองแร่ ตัวอย่าง ในตาราง 1.1 ได้กำลังสอง เหตุการณ์ และกรณี มากกว่าความเดียวของอินสแตนซ์ (เช่น แถวในตาราง) นอกจากนี้ เหตุการณ์จะสั่งในเวลา โดยในตารางที่ 3.1, 3.2 และ 3.3 ลำดับของแถวมีความหมายไม่ สำหรับคำถามเฉพาะ จะสามารถแปลงบันทึกเหตุการณ์ลงในชุดข้อมูลอย่างง่ายสำหรับการทำเหมืองข้อมูล เราจะอ้างถึงนี้เป็นการแยกคุณลักษณะ ภายหลัง เราจะใช้การสกัดคุณลักษณะต่าง ๆ เสนอ เช่น วิเคราะห์ตัดสินใจในการจำลองกระบวนการพบ และคลัสเตอร์กรณีก่อนการค้นพบกระบวนการเพื่อให้แต่ละคลัสเตอร์มีแบบจำลองกระบวนการเฉพาะหลังจากแสดงพื้นฐานป้อนรูปแบบการทำเหมืองข้อมูล และสนทนาคำถามทั่วไป เราแบ่งเทคนิคการทำเหมืองข้อมูลเป็นสองประเภทหลัก: แบบมีผู้สอนการเรียนรู้และเรียนรู้ unsupervised
การแปล กรุณารอสักครู่..

ตัวแปรบูลีนที่เป็นจริงหรือเท็จ ตัวแปรเชิงตัวเลขมีการสั่งซื้อไอเอ็นจีและไม่สามารถระบุได้อย่างง่ายดาย ตัวอย่างเช่นอุณหภูมิ (เช่น 39.7 องศาเซนติเกรด) อายุ (44 ปี) น้ำหนัก (56.3 กิโลกรัม) จำนวนรายการ (3 กาแฟ) และความสูง (11 เมตรต่ำกว่าระดับน้ำทะเล) ตัวแปรเด็ดขาดมักจะ subdi- แต่แบ่งออกเป็นลำดับตัวแปรและตัวแปรที่ระบุ ตัวแปรที่กำหนดไม่มีการสั่งซื้อ log- iCal ตัวอย่างเช่น Booleans (จริงและเท็จ) สี (สีแดง, สีเหลือง, สีเขียว) และประเทศในสหภาพยุโรป (เยอรมนี, อิตาลี, ฯลฯ ) ได้ตกลงที่ไม่มีตรรกะทั่วไปเมื่อเป็นสีเดอริ่ง ตัวแปรที่มีการสั่งซื้อลำดับที่เกี่ยวข้องกับมัน ตัวอย่างเช่นคอลัมน์ผลในตารางที่ 3.2 หมายถึงลำดับตัวแปรที่สามารถมีค่า "เกียรตินิยม", "ผ่าน" และ "ล้มเหลว" สำหรับการใช้งานส่วนใหญ่ก็จะทำให้ความรู้สึกที่จะต้องพิจารณาค่า "ผ่าน" ในระหว่าง "เกียรตินิยม" และ "ล้มเหลว".
ก่อนที่จะใช้เทคนิคการทำเหมืองข้อมูลข้อมูลใด ๆ โดยทั่วไปจะ preprocessed เช่นแถวและคอลัมน์อาจถูกลบออกด้วยเหตุผลต่างๆ . ยกตัวอย่างเช่นคอลัมน์ที่มีข้อมูลที่เกี่ยวข้องน้อยควรจะออกก่อนที่จะลดขนาดวัด sionality ของปัญหา อินสแตนซ์ที่ได้รับความเสียหายได้อย่างชัดเจนนอกจากนี้ยังควรจะย้ายอีกครั้ง นอกจากนี้ค่าของตัวแปรเช่นโดยเฉพาะอย่างยิ่งอาจจะขาดหายไปหรือมีผิดประเภท ซึ่งอาจจะเกิดจากข้อผิดพลาดในขณะที่บันทึกข้อมูล แต่ก็ยังอาจจะมีเหตุผลใด ยกตัวอย่างเช่นในตารางที่ 3.2 เกรดแน่นอนบางอย่างจะหายไป (แสดงโดย "-") เหล่านี้เป็นค่าที่ขาดหายไปไม่ได้ แต่มีข้อผิดพลาดข้อมูลที่มีค่า สำหรับบางชนิดของการวิเคราะห์ชั้นประถมศึกษาปีที่หายไปแน่นอนสามารถจะถือว่าเป็น "ศูนย์" คือไม่ได้รับการเรียนการสอนคือ "ต่ำ" กว่าเกรดที่ต่ำที่สุด ประเภทอื่น ๆ ของการวิเคราะห์ก็อาจเป็นไปได้ว่าค่าในคอลัมน์ดังกล่าวจะถูกแมปไปยัง "ใช่" (มีส่วนร่วมในการเรียนการสอน) และ "ไม่มี" (รายการที่ตอนนี้มี "-").
เมื่อเปรียบเทียบตาราง 3.1, 3.2 และ 3.3 มีบันทึกเหตุการณ์ที่แสดงในตารางที่ 1.1 มันจะกลายเป็นที่เห็นได้ชัดว่าเทคนิคการทำเหมืองข้อมูลทำให้สมมติฐานน้อยเกี่ยวกับรูปแบบของการป้อนข้อมูลกว่าเทคนิคการทำเหมืองกระบวนการ ยกตัวอย่างเช่นในตารางที่ 1.1 มีสองความคิดกิจกรรมและกรณีมากกว่าความคิดเดียวของอินสแตนซ์ (เช่นแถวในตาราง) นอกจากนี้เหตุการณ์ที่เกิดขึ้นมีการสั่งซื้อในขณะที่เวลาในตารางที่ 3.1, 3.2 และ 3.3 การสั่งซื้อของแถวมีความหมายไม่ สำหรับคำถามโดยเฉพาะอย่างยิ่งมันเป็นไปได้ที่จะแปลงบันทึกเหตุการณ์เป็นข้อมูลง่ายที่กำหนดไว้สำหรับการทำเหมืองข้อมูล เราจะอ้างถึงนี้เป็นคุณลักษณะการสกัด ต่อมาเราจะใช้การสกัดคุณลักษณะต่างๆเสนอเช่นการวิเคราะห์การตัดสินใจในรูปแบบขั้นตอนการค้นพบและกรณีการจัดกลุ่มก่อนการค้นพบกระบวนการเพื่อให้แต่ละกลุ่มมีรูปแบบกระบวนการเฉพาะ.
หลังจากที่แสดงให้เห็นถึงรูปแบบการป้อนข้อมูลพื้นฐานสำหรับการทำเหมืองข้อมูลและการหารือคำถามทั่วไป เราจำแนกเทคนิคการทำเหมืองข้อมูลเป็นสองประเภทหลัก: การเรียนรู้และการเรียนรู้ภายใต้การดูแลใกล้ชิด
การแปล กรุณารอสักครู่..

ตรรกะตัวแปรที่เป็นจริงหรือเท็จ ตัวแปรเชิงตัวเลขมีคำสั่ง - ing และไม่สามารถระบุได้อย่างง่ายดาย ตัวอย่าง เช่น อุณหภูมิ , 39.7 องศาเซนติเกรด ) , อายุ ( 44 ปี ) น้ำหนัก ( 56.3 กิโลกรัม ) , หมายเลขของรายการ ( 3 ชนิด ) และความสูง ( 11 เมตรต่ำกว่าระดับน้ำทะเล ) ตัวแปรอย่างแท้จริงมักจะ subdi - vided ตัวแปรและตัวแปรในช่วงปกติตัวแปรระบุไม่มีบันทึกเกี่ยวกับการสั่งซื้อ ตัวอย่างเช่น บูลีน ( จริงและปลอม ) , สี ( แดง , เหลือง , เขียว ) , และประเทศใน EU ( เยอรมนีอิตาลี ฯลฯ ) ไม่มีที่ตกลงกันทางตรรกะ หรือราว . ตัวแปรที่สำคัญมีการสั่งซื้อ เกี่ยวข้องกับ ตัวอย่างเช่นผลคอลัมน์ตารางที่ 3.2 หมายถึงความเท่าเทียมกันตัวแปรที่ได้ค่านิยม " คุม เลาเด้ " , " ผ่าน " และ " ล้มเหลว "สำหรับการใช้งานมากที่สุด ก็จะทำให้ความรู้สึกที่จะต้องพิจารณาค่า " ผ่าน " ระหว่าง " คุม เลาเด้ " และ " ล้มเหลว " .
ก่อนที่จะใช้เทคนิคเหมืองข้อมูลข้อมูล preprocessed โดยทั่วไป เช่น แถวและคอลัมน์จะถูกลบออกด้วยเหตุผลต่างๆ ตัวอย่างเช่นคอลัมน์ที่มีข้อมูลที่เกี่ยวข้องไม่ควรเอาออกก่อนเพื่อลดไดเม็น - sionality ของปัญหาตัวอย่างที่ชัดเจนที่เสียหายควรจะ re - ย้าย และค่าของตัวแปรสำหรับอินสแตนซ์โดยเฉพาะ อาจจะขาดหรือมีที่ผิดประเภท นี้อาจจะเนื่องจากความผิดพลาดในขณะบันทึกข้อมูล แต่มันอาจจะมีเหตุผลที่เฉพาะเจาะจง ตัวอย่างเช่นในตารางที่ 3.2 เกรดแน่นอนจะหายไป ( แสดงโดย " ( " )เหล่านี้ค่าสูญหายไม่ใช่ข้อผิดพลาด แต่ประกอบด้วยข้อมูลที่มีคุณค่า สำหรับบางชนิดของการวิเคราะห์ หายแน่นอน เกรดสามารถถือว่าเป็น " ศูนย์ " คือ ไม่รับแน่นอน " ต่ำ " กว่าเกรดที่ถูกที่สุด สำหรับประเภทอื่น ๆของการวิเคราะห์ อาจเป็นว่า ค่าในคอลัมน์จะถูกแมปไปยัง " ใช่ " ( มีส่วนร่วมในหลักสูตร ) และ " ไม่ " ( รายการที่ตอนนี้มี "
- " )เมื่อเปรียบเทียบตาราง 3.1 , 3.2 , 3.3 กับบันทึกเหตุการณ์แสดงในตารางที่ 1.1 มันจะกลายเป็นที่เห็นได้ชัดว่าเทคนิคของเหมืองข้อมูลให้สมมติฐานน้อยเกี่ยวกับรูปแบบของข้อมูลมากกว่ากระบวนการเทคนิคเหมืองแร่ ตัวอย่างเช่นในตารางที่ 1.1 มีสองความคิด เหตุการณ์ และกรณี ดีกว่าความคิดเดียวของอินสแตนซ์ ( เช่นแถวในตาราง ) นอกจากนี้เหตุการณ์จะถูกสั่งในเวลาในขณะที่ตาราง 3.1 , 3.2 , 3.3 การสั่งซื้อแถวไม่มีความหมาย สำหรับคำถามที่เฉพาะเจาะจง มันเป็นไปได้ที่จะแปลงเหตุการณ์เข้าสู่ระบบง่ายชุดข้อมูลสำหรับการทำเหมืองข้อมูล เราจะอ้างถึงนี้เป็นการสกัดคุณลักษณะ หลังจากนั้น เราก็จะใช้ในการสกัดคุณลักษณะต่าง ๆได้ เช่นการวิเคราะห์การตัดสินใจในการค้นพบกระบวนการรูปแบบและการจัดกลุ่มคดีก่อนการค้นพบกระบวนการเพื่อให้แต่ละกลุ่มมีเฉพาะแบบ .
หลังจากแสดงรูปแบบข้อมูลพื้นฐานของการทำเหมืองข้อมูลและการอภิปรายเกี่ยวกับคำถามทั่วไปเราจำแนกเทคนิคการทำเหมืองข้อมูลออกเป็นสองประเภทหลัก : การสอนและการเรียนรู้แบบไม่มีผู้สอน .
การแปล กรุณารอสักครู่..
