Tables 3.1, 3.2, and 3.3 show three typical data sets used as input for data mining algorithms. Such a data set is often referred to as sample or table. The rows in the three tables are called instances. Alternative terms are: individuals, entities, cases, objects, and records. Instances may correspond to deceased persons, students, customers, orders, orderlines, messages, etc. The columns in the three tables are called variables. Variables are often referred to as attributes, features, or data elements. The first data set (Table 3.1) has four variables: drinker, smoker, weight, and age.
We distinguish between categorical variables and numerical variables. Categorical variables have a limited set of possible values and can easily be enumerated, e.g.,
ตารางที่ 3.1 , 3.2 , 3.3 แสดงสามข้อมูลทั่วไปชุดใช้เป็นอินพุตสำหรับขั้นตอนวิธีการทำเหมืองข้อมูล เป็นชุดข้อมูลที่มักจะหมายถึงตัวอย่างหรือตาราง แถวใน 3 ตารางเรียกว่ากรณี เงื่อนไขอื่น : บุคคล , องค์กร , กรณี , วัตถุ , และบันทึก กรณีอาจสอดคล้องกับบุคคลที่เสียชีวิต , นักเรียน , ลูกค้าสั่งซื้อ orderlines , ข้อความ ฯลฯคอลัมน์ใน 3 ตารางจะเรียกว่าตัวแปร ตัวแปรที่มักจะเรียกว่าคุณลักษณะ , คุณสมบัติ , ข้อมูลหรือองค์ประกอบ ข้อมูลชุดแรก ( ตารางที่ 3.1 ) มี 4 ตัวแปร คือ ดื่มเหล้า , สูบบุหรี่ น้ำหนัก และอายุ
เราแยกแยะระหว่างตัวแปรจำแนกประเภท และตัวแปรที่เป็นตัวเลข ตัวแปรอย่างแท้จริงมีชุด จำกัด ของค่าที่เป็นไปได้และได้อย่างง่ายดายสามารถระบุเช่น
การแปล กรุณารอสักครู่..
