2.1. Data quality can be assessed in terms of accuracy, completeness, and consistency. Propose two other
dimensions of data quality.
Answer:
Other dimensions that can be used to assess the quality of data include timeliness, believability, value added,
interpretability and accessability, described as follows:
• Timeliness: Data must be available within a time frame that allows it to be useful for decision making.
• Believability: Data values must be within the range of possible results in order to be useful for
decision making.
• Value added: Data must provide additional value in terms of information that offsets the cost of
collecting and accessing it.
• Interpretability: Data must not be so complex that the effort to understand the information it
provides exceeds the benefit of its analysis.
• Accessability: Data must be accessible so that the effort to collect it does not exceed the benefit
from its use.
2.2. Suppose that the values for a given set of data are grouped into intervals. The intervals and corresponding
frequencies are as follows.
age frequency
1-5 200
5-15 450
15-20 300
20-50 1500
50-80 700
80-110 44
Compute an approximate median value for the data.
Answer:
Using Equation (2.3), we have L1 = 20, N= 3194, (Pfreq)
l = 950, freqmedian = 1500, width = 30, median
= 32.94 years.
13
14 CHAPTER 2. DATA PREPROCESSING
2.3. Give three additional commonly used statistical measures (i.e., not illustrated in this chapter) for the
characterization of data dispersion, and discuss how they can be computed efficiently in large databases.
Answer:
Data dispersion, also known as variance analysis, is the degree to which numeric data tend to spread and can
be characterized by such statistical measures as mean deviation, measures of skewness, and the coefficient
of variation.
The mean deviation is defined as the arithmetic mean of the absolute deviations from the means and is
calculated as:
mean deviation =
PN
i=1 |x − x¯|
N
, (2.1)
where ¯x is the arithmetic mean of the values and N is the total number of values. This value will be greater
for distributions with a larger spread.
A common measure of skewness is:
x¯ − mode
s
, (2.2)
which indicates how far (in standard deviations, s) the mean (¯x) is from the mode and whether it is greater
or less than the mode.
The coefficient of variation is the standard deviation expressed as a percentage of the arithmetic mean
and is calculated as:
coefficient of variation =
s
x¯
× 100 (2.3)
The variability in groups of observations with widely differing means can be compared using this measure.
Note that all of the input values used to calculate these three statistical measures are algebraic measures.
Thus, the value for the entire database can be efficiently calculated by partitioning the database, computing
the values for each of the separate partitions, and then merging theses values into an algebraic equation
that can be used to calculate the value for the entire database.
The measures of dispersion described here were obtained from: Statistical Methods in Research and Production,
fourth ed., edited by Owen L. Davies and Peter L. Goldsmith, Hafner Publishing Company, NY:NY,
1972.
2.4. Suppose that the data for analysis includes the attribute age. The age values for the data tuples are (in
increasing order) 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45,
46, 52, 70.
(a) What is the mean of the data? What is the median?
(b) What is the mode of the data? Comment on the data’s modality (i.e., bimodal, trimodal, etc.).
(c) What is the midrange of the data?
(d) Can you find (roughly) the first quartile (Q1) and the third quartile (Q3) of the data?
(e) Give the five-number summary of the data.
(f) Show a boxplot of the data.
(g) How is a quantile-quantile plot different from a quantile plot?
2.8. EXERCISES 15
Answer:
(a) What is the mean of the data? What is the median?
The (arithmetic) mean of the data is: ¯x =
1
N
X
N
i=1
xi = 809/27 = 30 (Equation 2.1). The median (middle
value of the ordered set, as the number of values in the set is odd) of the data is: 25.
(b) What is the mode of the data? Comment on the data’s modality (i.e., bimodal, trimodal, etc.).
This data set has two values that occur with the same highest frequency and is, therefore, bimodal.
The modes (values occurring with the greatest frequency) of the data are 25 and 35.
(c) What is the midrange of the data?
The midrange (average of the largest and smallest values in the data set) of the data is: (70 + 13)/2 =
41.5
(d) Can you find (roughly) the first quartile (Q1) and the third quartile (Q3) of the data?
The first quartile (corresponding to the 25th percentile) of the data is: 20. The third quartile (corresponding
to the 75th percentile) of the data is: 35.
(e) Give the five-number summary of the data.
The five number summary of a distribution consists of the minimum value, first quartile, median value,
third quartile, and maximum value. It provides a good summary of the shape of the distribution and
for this data is: 13, 20, 25, 35, 70.
(f) Show a boxplot of the data. (Omitted here. Please refer to Figure 2.3 of the textbook.)
(g) How is a quantile-quantile plot different from a quantile plot?
A quantile plot is a graphical method used to show the approximate percentage of values below or
equal to the independent variable in a univariate distribution. Thus, it displays quantile information
for all the data, where the values measured for the independent variable are plotted against their
corresponding quantile.
A quantile-quantile plot however, graphs the quantiles of one univariate distribution against the corresponding
quantiles of another univariate distribution. Both axes display the range of values measured
for their corresponding distribution, and points are plotted that correspond to the quantile values of
the two distributions. A line (y = x) can be added to the graph along with points representing where
the first, second and third quantiles lie to increase the graph’s informational value. Points that lie
above such a line indicate a correspondingly higher value for the distribution plotted on the y-axis
than for the distribution plotted on the x-axis at the same quantile. The opposite effect is true for
points lying below this line.
2.5. In many applications, new data sets are incrementally added to the existing large data sets. Thus an
important consideration for computing descriptive data summary is whether a measure can be computed
efficiently in incremental manner. Use count, standard deviation, and median as examples to show that a
distributive or algebraic measure facilitates efficient incremental computation, whereas a holistic measure
does not.
Answer:
• Count: The current count can be stored as a value, and when x number of new values are added,
we can easily update count with count + x. This is a distributive measure and is easily updated for
incremental additions.
• Standard deviation: If we store the sum of the squared existing values and the count of the existing
values, we can easily generate the new standard deviation using the formula provided in the book.
We simply need to calculate the squared sum of the new numbers, add that to the existing squared
sum, update the count of the numbers, and plug that into the calculation to obtain the new standard
deviation. All of this is done without looking at the whole data set and is thus easy to compute.
16 CHAPTER 2. DATA PREPROCESSING
• Median: To accurately calculate the median, we have to look at every value in the dataset. When we
add a new value or values, we have to sort the new set and then find the median based on that new
sorted set. This is much harder and thus makes the incremental addition of new values difficult.
2.6. In real-world data, tuples with missing values for some attributes are a common occurrence. Describe
various methods for handling this problem.
Answer:
The various methods for handling the problem of missing values in data tuples include:
(a) Ignoring the tuple: This is usually done when the class label is missing (assuming the mining task
involves classification or description). This method is not very effective unless the tuple contains several
attributes with missing values. It is especially poor when the percentage of missing values per attribute
varies considerably.
(b) Manually filling in the missing value: In general, this approach is time-consuming and may not
be a reasonable task for large data sets with many missing values, especially when the value to be filled
in is not easily determined.
(c) Using a global constant to fill in the missing value: Replace all missing attribute values by
the same constant, such as a label like “Unknown,” or −∞. If missing values are replaced by, say,
“Unknown,” then the mining program may mistakenly think that they form an interesting concept,
since they all have a value in common — that of “Unknown.” Hence, although this method is simple,
it is not recommended.
(d) Using the attribute mean for quantitative (numeric) values or attribute mode for categorical
(nominal) values: For example, suppose that the average income of AllElectronics customers is
$28,000. Use this value to replace any missing values for income.
(e) Using the attribute mean for quantitative (numeric) values or attribute mode for categorical
(nominal) values, for all samples belonging to the same class as the given tuple: For
example, if classifying customers according to credit risk, replace the missing value with the average
income value for customers in the same credit risk category as that of the given tuple.
(f) Using the most probable value to fill in the missing value: This may be determined with
regression, inference-based tools using Bayesian formalism, or decision tree induction. For example,
using the other customer attributes in the data set, we can construct a decision tree to predict the
missing values for income.
2.7. Using t
2.1 คุณภาพข้อมูลสามารถประเมินความถูกต้อง ความสมบูรณ์ และความสอดคล้อง เสนอ 2 อื่น ๆมิติของคุณภาพข้อมูลคำตอบ:รวมถึงมิติอื่น ๆ ที่สามารถใช้เพื่อประเมินคุณภาพของข้อมูลที่ เที่ยงตรง believability มูลค่าเพิ่มinterpretability และ accessability อธิบายได้ดังนี้:•นัดหมาย: ข้อมูลต้องพร้อมใช้งานภายในกรอบเวลาที่อนุญาตให้ใช้สำหรับการตัดสินใจ• Believability: ค่าข้อมูลต้องอยู่ภายในช่วงของผลได้เพื่อเป็นประโยชน์สำหรับตัดสินใจ•มูลค่าเพิ่ม: ข้อมูลต้องกำหนดค่าเพิ่มเติมในข้อมูลที่ชดเชยต้นทุนของรวบรวม และการเข้าถึง• Interpretability: ข้อมูลต้องไม่ซับซ้อนที่พยายามทำความเข้าใจข้อมูลนั้นให้เกินประโยชน์ของการวิเคราะห์• Accessability: ต้องสามารถเข้าถึงข้อมูลเพื่อให้ความพยายามในการเรียกเก็บเกินกว่าประโยชน์จากการใช้2.2. สมมติว่า ค่าสำหรับชุดข้อมูลกำหนดแบ่งช่วง ช่วงเวลา และสอดคล้องความถี่มีดังนี้ความถี่ของอายุ1-5 2005-15 45015-20 30020-50 150050-80 70044 80-110คำนวณค่ามัธยฐานโดยประมาณสำหรับข้อมูลคำตอบ:เราใช้สมการ (2.3), มี L1 = 20, N = 3194, (Pfreq)l = 950, freqmedian = 1500 ความกว้าง = 30 มัธยฐาน= ปี 32.941314 บทที่ 2 ข้อมูลที่ประมวลผลเบื้องต้น2.3. ให้สามเพิ่มเติมมาตรการทางสถิติที่ใช้กันทั่วไป (เช่น ไม่มีภาพประกอบในบทนี้) สำหรับการคุณสมบัติของข้อมูลกระจายตัว จับเข่าคุยว่าพวกเขาสามารถจะคำนวณได้อย่างมีประสิทธิภาพในฐานข้อมูลขนาดใหญ่คำตอบ:ข้อมูลกระจายตัว หรือที่เรียกว่าการวิเคราะห์ผลต่าง เป็นระดับซึ่งข้อมูลตัวเลขมีแนวโน้มอาจ จะแพร่กระจายเป็นลักษณะเช่นมาตรการทางสถิติส่วนเบี่ยงเบนเฉลี่ย การวัดความเบ้ และค่าสัมประสิทธิ์ของการเปลี่ยนแปลงความแตกต่างของค่าเฉลี่ยถูกกำหนดเป็นหมายเลขคณิตส่วนเบี่ยงเบนสัมบูรณ์จากวิธีการ และมีคำนวณเป็น:ความเบี่ยงเบนของค่าเฉลี่ย =พีเอ็นฉัน = x¯| |x − 1N, (2.1)โดยที่ ¯x คือ มัชฌิมเลขคณิตของค่า N เป็นจำนวนของค่า ค่านี้จะมากขึ้นสำหรับการกระจายด้วยกระจายขนาดใหญ่การร่วมวัดความเบ้คือ:โหมด x¯ −s, (2.2)ว่า ไกลเท่าไร (ในส่วนเบี่ยงเบนมาตรฐาน s) ค่าเฉลี่ย (¯x) มาจากโหมดและไม่ว่าจะเป็นมากขึ้นหรือน้อยกว่าวิธีค่าสัมประสิทธิ์ความผันแปรจะแสดงเป็นเปอร์เซ็นต์ของค่าเฉลี่ยเลขคณิตส่วนเบี่ยงเบนมาตรฐานและคำนวณเป็น:สัมประสิทธิ์ของความแปรปรวน =sx¯× 100 (2.3)ความแปรผันในกลุ่มสังเกตด้วยวิธีแตกต่างกันสามารถเปรียบเทียบโดยใช้หน่วยวัดนี้ได้โปรดสังเกตว่า ค่าอินพุทที่ใช้ในการคำนวณมาตรการทางสถิติเหล่านี้สามเป็นมาตรการพีชคณิตดังนั้น ค่าสำหรับฐานข้อมูลทั้งหมดสามารถมีประสิทธิภาพคำนวณ โดยพาร์ทิชันฐานข้อมูล คอมพิวเตอร์ค่าสำหรับแต่ละพาร์ติชันแยก และการผสานค่าผลงานแล้ว เข้าสมการพีชคณิตที่สามารถใช้ในการคำนวณค่าสำหรับฐานข้อมูลทั้งหมดมาตรการของการกระจายตัวที่อธิบายไว้ที่นี่ได้รับจาก: วิธีการทางสถิติในการวิจัยและการผลิตอุตสาหกรรมมหาบัณฑิตสี่ แก้ไข โดยโอเวนเดวีส์ L. และปีเตอร์ L. ทอง Hafner ประกาศ บริษัท NY:NY19722.4. สมมติว่า ข้อมูลสำหรับการวิเคราะห์ประกอบด้วยแอททริบิวต์อายุ ค่าอายุของ tuples ข้อมูลอยู่ในเพิ่มใบสั่ง) 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 4546, 52, 70(ก) ค่ากลางของข้อมูลคืออะไร ค่ามัธยฐานคืออะไร(b) โหมดของข้อมูลคืออะไร ข้อคิดเห็นบน modality ของข้อมูล (เช่น bimodal, trimodal ฯลฯ .)(c) เป่าของข้อมูลคืออะไร(d) สามารถหา (ประมาณ) ควอไทล์แรก (ไตรมาสที่ 1) และควอไทล์ที่ 3 (Q3) ของข้อมูลหรือไม่(จ) ให้สรุปข้อมูลจำนวน 5(f) แสดง boxplot ของข้อมูล(g) ลักษณะเป็น quantile quantile แตกต่างจากแผน quantile2.8 การออกกำลังกาย 15คำตอบ:(ก) ค่ากลางของข้อมูลคืออะไร ค่ามัธยฐานคืออะไรหมายความว่า (เลขคณิต) ของข้อมูลเป็น: ¯x =1NXNฉัน = 1xi = 809/27 = 30 (สมการ 2.1) ค่ามัธยฐาน (กลางค่าของที่สั่งชุด ตามจำนวนของค่าในชุดเป็นคี่) ของข้อมูล: 25(b) โหมดของข้อมูลคืออะไร ข้อคิดเห็นบน modality ของข้อมูล (เช่น bimodal, trimodal ฯลฯ .)ชุดข้อมูลนี้มีค่าสองค่าที่เกิดขึ้นกับความถี่สูงสุดที่เดียวกัน และ จึง bimodalโหมด (ค่าที่เกิดขึ้น ด้วยความถี่มากที่สุด) ของข้อมูลเป็น 25 และ 35(c) เป่าของข้อมูลคืออะไรเป่า (ค่าเฉลี่ยของค่าเล็กที่สุด และใหญ่ที่สุดในชุดข้อมูล) ของข้อมูลคือ: (70 + 13) / 2 =41.5(d) สามารถหา (ประมาณ) ควอไทล์แรก (ไตรมาสที่ 1) และควอไทล์ที่ 3 (Q3) ของข้อมูลหรือไม่เป็นแรกควอไทล์ (ที่สอดคล้องกับ percentile 25) ข้อมูล: 20 ควอไทล์สาม (ที่สอดคล้องการ percentile ที่ 75) ของข้อมูล: 35(จ) ให้สรุปข้อมูลจำนวน 5สรุปการกระจายหมายเลข 5 ประกอบด้วยค่าต่ำสุด ควอไทล์แรก ค่ามัธยฐานควอไทล์ที่สาม และค่าสูงสุด ให้สรุปดีของรูปร่างของการกระจาย และสำหรับข้อมูลนี้: 13, 20, 25, 35, 70(f) แสดง boxplot ของข้อมูล (ข้ามที่นี่ไป กรุณาอ้างอิงถึง 2.3 ในรูปของตำราเรียน)(g) ลักษณะเป็น quantile quantile แตกต่างจากแผน quantileแผน quantile เป็นวิธีกราฟิกใช้แสดงเปอร์เซ็นต์โดยประมาณของค่าที่ด้านล่าง หรือเท่ากับตัวแปรอิสระในการกระจายอย่างไร univariate ดังนั้น มันแสดงข้อมูล quantileสำหรับข้อมูลทั้งหมด ที่พล็อตค่าวัดตัวแปรอิสระกับตัวquantile สอดคล้องกันแผน quantile quantile ไร graphs quantiles กระจายอย่างไร univariate หนึ่งกับให้สอดคล้องกับquantiles การกระจายอย่างไร univariate อื่น แกนทั้งสองแสดงช่วงของค่าที่วัดได้สำหรับการแจกจ่ายที่เกี่ยวข้อง และจุดที่พล็อตที่สอดคล้องกับค่า quantileการกระจายที่สอง บรรทัด (y = x) สามารถเพิ่มกราฟพร้อมกับคะแนนที่แสดงถึงครั้งแรก สอง และสาม quantiles โกหกเพื่อเพิ่มค่าข้อมูลของกราฟ สถานที่อยู่บนบรรทัดดังกล่าวระบุเรียบสูงสำหรับการกระจายลงจุดบนแกน yกว่าการแจกลงจุดบนแกน x ที่ quantile เดียวกัน ผลตรงข้ามคือแท้จริงสำหรับจุดที่อยู่ใต้บรรทัดนี้2.5 ในโปรแกรมประยุกต์มากมาย ชุดข้อมูลใหม่แบบเพิ่มหน่วยบวกกับชุดข้อมูลขนาดใหญ่ที่มีอยู่ ดังนั้นการพิจารณาที่สำคัญสำหรับคอมพิวเตอร์อธิบายข้อมูลที่สรุปเป็นว่า สามารถคำนวณจากการวัดในลักษณะเพิ่มขึ้นอย่างมีประสิทธิภาพ ใช้ตรวจนับ ส่วนเบี่ยงเบนมาตรฐาน ค่ามัธยฐานเป็นตัวอย่างที่เป็นวัดแจกแจง หรือพีชคณิตช่วยคำนวณเพิ่มประสิทธิภาพ ในขณะที่การวัดแบบองค์รวมไม่ได้คำตอบ:•นับ: จำนวนปัจจุบันสามารถจัดเก็บเป็นค่า และเมื่อ x จำนวนค่าใหม่เพิ่มเราได้อย่างง่ายดายสามารถปรับปรุงจำนวนนับ + x นี้เป็นการวัดการแจกแจง และได้รับการปรับปรุงสำหรับเพิ่มเติมเพิ่ม•ส่วนเบี่ยงเบนมาตรฐาน: ถ้าเราเก็บผลรวมของค่ากำลังสองที่มีอยู่และจำนวนที่มีอยู่ค่า เราสามารถได้อย่างง่ายดายสร้างส่วนเบี่ยงเบนมาตรฐานใหม่โดยใช้สูตรในหนังสือเราต้องการคำนวณผลรวมกำลังสองของหมายเลขใหม่ เพิ่มที่ต้องการยกกำลังสองรวม ปรับปรุงจำนวนหมายเลข และต่อสายที่เป็นการคำนวณเพื่อให้ได้มาตรฐานใหม่ความแตกต่าง ทั้งหมดนี้จะทำ โดยมองชุดข้อมูลทั้งหมด และจึงง่ายต่อการคำนวณ16 บทที่ 2 ข้อมูลที่ประมวลผลเบื้องต้น•มัธยฐาน: ถูกต้องคำนวณค่ามัธยฐาน เราต้องดูทุกค่าในชุดข้อมูล เมื่อเราเพิ่มค่าใหม่หรือค่า เราต้องเรียงชุดใหม่ และจากนั้น ค้นหามัธยฐานโดยใช้ที่ใหม่ชุดเรียงลำดับ นี้ยากมาก และจึง ทำการเพิ่มค่าใหม่เพิ่มให้ยาก2.6. ในข้อมูลจริง tuples มีค่าสูญหายสำหรับบางแอตทริบิวต์เกิดขึ้นทั่วไป อธิบายวิธีการต่าง ๆ ในการจัดการปัญหานี้คำตอบ:วิธีการต่าง ๆ ในการจัดการปัญหาค่าที่ขาดหายไปใน tuples ข้อมูลรวม:(ก) ละเว้นทูเพิล: นี้โดยปกติกระทำเมื่อป้ายคลาหาย (สมมติว่างานเหมืองแร่เกี่ยวข้องกับการจัดประเภทหรือรายละเอียด) วิธีนี้จะไม่มีประสิทธิภาพมากถ้าประกอบด้วยทูเพิลหลายแอตทริบิวต์ มีค่าหายไป ก็ดีโดยเฉพาะอย่างยิ่งเมื่อเปอร์เซ็นต์ของขาดค่าสำหรับแต่ละแอททริบิวต์ไปจนมาก(b) กรอกค่าหายไปด้วยตนเอง: ทั่วไป วิธีการนี้จะใช้เวลานาน และอาจไม่เป็นงานเหมาะสมสำหรับชุดข้อมูลขนาดใหญ่มีค่าไม่มาก โดยเฉพาะอย่างยิ่งเมื่อค่าจะในจะไม่ได้ถูกกำหนดขึ้น(ค) การใช้ค่าคงสากลให้กรอกค่าหายไป: แทนค่าแอททริบิวต์ทั้งหมดหายไปด้วยคงที่เดียวกัน เช่นป้ายชื่อเช่น "รู้จัก" หรือ−∞ ถ้าค่าที่หายไปถูกแทนที่ โดย กล่าว"ไม่รู้จัก" แล้วโปรแกรมการทำเหมืองอาจแสดงคิดว่า พวกเขาเป็นแนวคิดที่น่าสนใจเนื่องจากพวกเขาทั้งหมดมีค่าร่วมกันที่ "ไม่รู้จัก" ดังนั้น แม้ ว่าวิธีนี้จะง่ายมันจะทำได้(d) หมายถึงคุณลักษณะโดยใช้ค่าเชิงปริมาณ (ตัวเลข) หรือโหมดแอตทริบิวต์แน่ชัดค่า (ระบุ): ตัวอย่าง สมมติว่า รายได้เฉลี่ยของลูกค้า AllElectronics เป็นวาละ $28000 ใช้ค่านี้เพื่อแทนค่าใด ๆ ขาดรายได้(e) หมายถึงคุณลักษณะโดยใช้ค่าเชิงปริมาณ (ตัวเลข) หรือโหมดแอตทริบิวต์สำหรับแตกค่า (ระบุ) สำหรับตัวอย่างทั้งหมดที่เป็นของประเภทเดียวกันเป็นทูเพิลกำหนด: สำหรับตัวอย่าง ถ้าประเภทลูกค้าตามความเสี่ยงด้านเครดิต แทนค่าหายไปด้วยค่าเงินสำหรับลูกค้าในความเสี่ยงประเภทเดียวกันของสินเชื่อรวมของทูเพิลที่กำหนด(f) ค่ามากที่สุดน่าเป็นใช้เพื่อกรอกค่าหายไป: นี้อาจกำหนดได้ด้วยถดถอย ใช้ข้อมือโดยใช้ทฤษฎี formalism หรือเหนี่ยวนำต้นไม้ตัดสินใจ ตัวอย่างใช้คุณลักษณะลูกค้าอื่น ๆ ในชุดข้อมูล เราสามารถสร้างต้นไม้การตัดสินใจเพื่อทำนายการค่าที่ขาดหายไปของรายได้2.7 ใช้ t
การแปล กรุณารอสักครู่..

2.1 ข้อมูลที่มีคุณภาพสามารถประเมินในแง่ของความถูกต้องครบถ้วนเป็นที่สอดคล้อง
เสนออีกสองขนาดของข้อมูลที่มีคุณภาพ.
คำตอบ:
มิติอื่น ๆ ที่สามารถใช้ในการประเมินคุณภาพของข้อมูลรวมถึงทันเวลาเลื่อมใสศรัทธามูลค่าเพิ่ม
interpretability
และการเดินทางที่อธิบายไว้ดังต่อไปนี้•ทันเวลา: ข้อมูลที่ต้องพร้อมใช้งานภายในกรอบเวลาที่ ช่วยให้สามารถที่จะเป็นประโยชน์สำหรับการตัดสินใจ.
•ความเลื่อมใสศรัทธา:
ค่าข้อมูลจะต้องอยู่ในช่วงของผลที่เป็นไปได้ในการที่จะเป็นประโยชน์สำหรับการตัดสินใจ.
•มูลค่าเพิ่ม:
ข้อมูลที่ต้องจัดให้มีมูลค่าเพิ่มในแง่ของข้อมูลที่ชดเชยค่าใช้จ่ายของการจัดเก็บภาษีและการเข้าถึงมัน.
• Interpretability:
ข้อมูลจะต้องไม่ซับซ้อนเพื่อให้ความพยายามที่จะทำความเข้าใจข้อมูลที่ให้สูงกว่าผลประโยชน์ของการวิเคราะห์ของตน.
•การเดินทาง:
ข้อมูลที่ต้องสามารถเข้าถึงได้เพื่อให้ความพยายามที่จะเก็บมันไม่เกินผลประโยชน์จากมันการใช้งาน.
2.2 สมมติว่าค่าสำหรับการตั้งค่าที่กำหนดของข้อมูลจะถูกแบ่งออกเป็นช่วงเวลาที่
ช่วงเวลาและสอดคล้องกันความถี่ดังต่อไปนี้.
ความถี่อายุ
1-5 200
5-15 450
15-20 300
20-50 1500
50-80 700
80-110 44
คำนวณค่าเฉลี่ยประมาณสำหรับข้อมูล.
คำตอบ:
การใช้สมการ (2.3 ) เรามี L1 = 20, N = 3194 (Pfreq)
ลิตร = 950, freqmedian = 1500, width = 30 เฉลี่ย
= 32.94 ปี.
13
14 บทที่ 2. ข้อมูล preprocessing
2.3 ให้สามเพิ่มเติมที่นิยมใช้มาตรการทางสถิติ (คือไม่ได้แสดงในบทนี้)
ในลักษณะของการกระจายข้อมูลและหารือเกี่ยวกับวิธีที่พวกเขาสามารถคำนวณได้อย่างมีประสิทธิภาพในฐานข้อมูลขนาดใหญ่.
คำตอบ:
การกระจายข้อมูลหรือที่เรียกว่าการวิเคราะห์ความแปรปรวนเป็นระดับไป ซึ่งข้อมูลที่เป็นตัวเลขมีแนวโน้มที่จะแพร่กระจายและสามารถโดดเด่นด้วยมาตรการทางสถิติเช่นค่าเบี่ยงเบนเฉลี่ยมาตรการเบ้และค่าสัมประสิทธิ์ของการเปลี่ยนแปลง. ส่วนเบี่ยงเบนเฉลี่ยถูกกำหนดให้เป็นค่าเฉลี่ยของการเบี่ยงเบนแน่นอนจากวิธีการและมีการคำนวณดังนี้ค่าเฉลี่ยเบี่ยงเบน = PN i = 1 | x - x | ไม่มี(2.1) ที่ X คือค่าเฉลี่ยเลขคณิตของค่านิยมและ N คือจำนวนรวมของค่า ค่านี้จะมากขึ้นสำหรับการกระจายที่มีการแพร่กระจายขนาดใหญ่. วัดทั่วไปของเบ้คือX - โหมดs (2.2) ซึ่งแสดงให้เห็นว่าไกล (ในการเบี่ยงเบนมาตรฐาน s) ค่าเฉลี่ย (X) จากโหมดและ ไม่ว่าจะเป็นมากขึ้น. หรือน้อยกว่าโหมดสัมประสิทธิ์การแปรผันเป็นส่วนเบี่ยงเบนมาตรฐานแสดงเป็นเปอร์เซ็นต์ของเลขคณิตหมายถึงและมีการคำนวณดังนี้สัมประสิทธิ์การแปรผัน= s x × 100 (2.3) ความแปรปรวนอยู่ในกลุ่มของการสังเกตด้วย กันอย่างแพร่หลายในวิธีที่แตกต่างกันสามารถนำมาเปรียบเทียบโดยใช้มาตรการนี้. โปรดทราบว่าทั้งหมดของค่าการป้อนข้อมูลที่ใช้ในการคำนวณเหล่านี้สามมาตรการทางสถิติมาตรการเกี่ยวกับพีชคณิต. ดังนั้นค่าสำหรับฐานข้อมูลทั้งหมดสามารถคำนวณได้อย่างมีประสิทธิภาพโดยแบ่งฐานข้อมูลการคำนวณค่าสำหรับแต่ละของพาร์ทิชันที่แยกต่างหากและแล้วการรวมค่าวิทยานิพนธ์เป็นสมการพีชคณิต. ที่สามารถนำมาใช้ในการคำนวณค่าสำหรับฐานข้อมูลทั้งมาตรการของการกระจายอธิบายไว้ที่นี่ได้รับจาก: วิธีการทางสถิติในการวิจัยและผลิตed. สี่แก้ไขโดย โอเว่นแอลเดวีส์และปีเตอร์แอลช่างทอง Hafner บริษัท สำนักพิมพ์นิวยอร์ก: NY, 1972 2.4 สมมติว่าข้อมูลสำหรับการวิเคราะห์รวมถึงอายุแอตทริบิวต์ ค่าอายุสำหรับ tuples ข้อมูล (ในการสั่งซื้อที่เพิ่มขึ้น) 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35 , 35, 35, 36, 40, 45, 46, 52, 70 (ก) ค่าเฉลี่ยของข้อมูลคืออะไร? เฉลี่ยคืออะไร? (ข) รูปแบบของข้อมูลคืออะไร? แสดงความคิดเห็นในกิริยาข้อมูล (เช่น bimodal, trimodal ฯลฯ ). (ค) ระดับกลางของข้อมูลคืออะไร? (ง) คุณสามารถหา (ประมาณ) ควอไทล์แรก (Q1) และควอไทล์ที่สาม (Q3) ของ ข้อมูลหรือไม่(จ) ให้สรุปห้าจำนวนของข้อมูล. (ฉ) แสดง Boxplot ของข้อมูล. (ช) เป็นวิธีการที่พล็อต quantile-quantile แตกต่างจากพล็อต quantile? 2.8 การออกกำลังกาย 15 คำตอบ: (ก) ค่าเฉลี่ยของข้อมูลคืออะไร? เฉลี่ยคืออะไร? (การทางคณิตศาสตร์) ค่าเฉลี่ยของข้อมูลคือ x = 1 เอ็นเอ็กซ์เอ็นi = 1 จิน = 809/27 = 30 (สมการ 2.1) ค่ามัธยฐาน (กลางมูลค่าของชุดที่สั่งซื้อเป็นจำนวนค่าอยู่ในชุดที่เป็นเลขคี่) ของข้อมูลที่เป็น: 25 (ข) รูปแบบของข้อมูลคืออะไร? แสดงความคิดเห็นในกิริยาข้อมูล (เช่น bimodal, trimodal ฯลฯ ). ข้อมูลชุดนี้มีสองค่าที่เกิดขึ้นกับความถี่สูงสุดเดียวกันและจึง bimodal. โหมด (ค่าที่เกิดขึ้นกับความถี่ที่ยิ่งใหญ่ที่สุด) ของข้อมูลที่มี 25 และ 35 (ค) ระดับกลางของข้อมูลคืออะไร? เสียงกลาง (ค่าเฉลี่ยของค่าที่ใหญ่ที่สุดและเล็กที่สุดในชุดข้อมูล) ของข้อมูลที่: (70 + 13) / 2 = 41.5 (ง) คุณสามารถหา (ประมาณ) ควอไทล์แรก (Q1) และควอไทล์ที่สาม (Q3) ของข้อมูลควอไทล์แรก(ตรงกับร้อยละ 25) ของข้อมูลที่: 20 ควอไทล์ที่สาม (ตรงกับร้อยละ75) ของข้อมูล เป็น: 35 (จ) ให้สรุปห้าจำนวนของข้อมูล. สรุปหมายเลขห้าของการกระจายประกอบด้วยค่าต่ำสุด, ควอไทล์แรกค่าเฉลี่ย, ควอไทล์ที่สามและความคุ้มค่าสูงสุด มันมีบทสรุปที่ดีของรูปทรงของการจัดจำหน่ายและข้อมูลนี้: 13, 20, 25, 35, 70 (ฉ) แสดง Boxplot ของข้อมูล (งดนี่. โปรดดูรูปที่ 2.3 ของตำรา.) (ช) เป็นวิธีการที่พล็อต quantile-quantile แตกต่างจากพล็อต quantile? พล็อต quantile เป็นวิธีการแบบกราฟิกที่ใช้ในการแสดงเปอร์เซ็นต์โดยประมาณของค่าด้านล่างหรือเท่ากับตัวแปรอิสระในการกระจาย univariate ดังนั้นจึงแสดงข้อมูล quantile สำหรับข้อมูลทั้งหมดที่ค่าที่วัดได้สำหรับตัวแปรอิสระที่มีพล็อตของพวกเขากับquantile ที่สอดคล้องกัน. พล็อต quantile-quantile แต่กราฟ quantiles หนึ่งกระจาย univariate ที่สอดคล้องกับquantiles ของการกระจาย univariate อื่น แกนทั้งสองแสดงช่วงของค่าที่วัดได้สำหรับการจัดจำหน่ายที่สอดคล้องกันของพวกเขาและจุดที่มีการวางแผนที่สอดคล้องกับค่า quantile ของทั้งสองการกระจาย สาย (y = x) สามารถเพิ่มรูปแบบของกราฟพร้อมกับเป็นตัวแทนของจุดที่เป็นครั้งแรกที่สองและสามquantiles นอนเพื่อเพิ่มมูลค่าในการให้ข้อมูลของกราฟ จุดที่อยู่เหนือเส้นดังกล่าวบ่งบอกถึงค่าที่สูงขึ้นตามลําดับสำหรับการกระจายจุดบนแกน y กว่าการกระจายจุดบนแกน x ที่ quantile เดียวกัน ผลตรงข้ามเป็นจริงสำหรับจุดนอนอยู่ใต้เส้นนี้. 2.5 ในการใช้งานหลายชุดข้อมูลใหม่จะถูกเพิ่มที่จะเพิ่มขึ้นชุดข้อมูลขนาดใหญ่ที่มีอยู่ ดังนั้นพิจารณาที่สำคัญสำหรับการคำนวณข้อมูลสรุปบรรยายไม่ว่าจะเป็นมาตรการที่สามารถคำนวณได้อย่างมีประสิทธิภาพในลักษณะที่เพิ่มขึ้น ใช้นับส่วนเบี่ยงเบนมาตรฐานและค่ามัธยฐานเป็นตัวอย่างที่จะแสดงให้เห็นว่ามาตรการการจำหน่ายหรือพีชคณิตอำนวยความสะดวกในการคำนวณที่เพิ่มขึ้นอย่างมีประสิทธิภาพในขณะที่การวัดแบบองค์รวมไม่ได้. คำตอบ: •จำนวน: นับปัจจุบันสามารถเก็บไว้เป็นค่าและเมื่อ x จำนวน ค่าใหม่ที่มีการเพิ่มเราสามารถอัปเดตที่มีการนับนับ+ x นี้เป็นมาตรการการจำหน่ายและมีการปรับปรุงได้อย่างง่ายดายสำหรับการเพิ่มที่เพิ่มขึ้น. •ค่าเบี่ยงเบนมาตรฐาน: ถ้าเราเก็บผลรวมของค่าที่มีอยู่สองและนับจากที่มีอยู่ในค่าเราสามารถสร้างค่าเบี่ยงเบนมาตรฐานใหม่โดยใช้สูตรที่ระบุไว้ในหนังสือเล่มนี้. เราก็ต้องคำนวณผลรวมกำลังสองของตัวเลขใหม่เพิ่มที่สแควร์ที่มีอยู่ผลรวมปรับปรุงการนับเลขและที่เสียบในการคำนวณเพื่อให้ได้มาตรฐานใหม่เบี่ยงเบน ทั้งหมดนี้จะทำได้โดยไม่ต้องมองหาที่ชุดข้อมูลทั้งหมดและจึงเป็นเรื่องง่ายในการคำนวณ. 16 บทที่ 2. ข้อมูล preprocessing •ค่ามัธยฐาน: ในการคำนวณค่าเฉลี่ยอย่างถูกต้องเราต้องมองไปที่ค่าในชุดข้อมูลที่ทุก เมื่อเราเพิ่มค่าใหม่หรือค่านิยมที่เรามีการจัดเรียงชุดใหม่แล้วหาค่าเฉลี่ยขึ้นอยู่กับที่ใหม่ชุดที่เรียงลำดับ นี้เป็นเรื่องยากจึงทำให้นอกจากนี้ที่เพิ่มขึ้นของค่าใหม่ยาก. 2.6 ในข้อมูลที่แท้จริงของโลก, อันดับที่มีค่าที่ขาดหายไปสำหรับแอตทริบิวต์บางอย่างที่เกิดขึ้นร่วมกัน อธิบายถึงวิธีการต่างๆในการจัดการกับปัญหานี้. คำตอบ: วิธีการต่างๆในการจัดการปัญหาของค่าที่ขาดหายไปใน tuples ข้อมูลรวมถึง: (ก) ละเว้น tuple: นี้มักจะทำเมื่อป้ายชื่อชั้นจะหายไป (สมมติว่างานเหมืองแร่ที่เกี่ยวข้องกับการจัดหมวดหมู่หรือคำอธิบาย) วิธีนี้เป็นวิธีที่มีประสิทธิภาพมากไม่เว้นแต่ tuple มีหลายคุณลักษณะที่มีค่าที่ขาดหายไป มันเป็นเรื่องที่ไม่ดีโดยเฉพาะอย่างยิ่งเมื่อร้อยละของค่าที่ขาดหายไปต่อคุณลักษณะแตกต่างกันมาก. (ข) ด้วยตนเองกรอกข้อมูลในค่าที่ขาดหายไป: โดยทั่วไปวิธีการนี้จะใช้เวลานานและอาจไม่เป็นงานที่เหมาะสมสำหรับชุดข้อมูลขนาดใหญ่ที่มีค่าที่ขาดหายไปจำนวนมากโดยเฉพาะอย่างยิ่งเมื่อค่าที่จะเต็มไปในไม่ได้กำหนดได้อย่างง่ายดาย. (ค) การใช้อย่างต่อเนื่องทั่วโลกในการกรอกค่าที่ขาดหายไป: เปลี่ยนค่าแอตทริบิวต์ที่ขาดหายไปโดยค่าคงที่เดียวกันเช่นป้ายเช่น"ไม่ทราบ" หรือ-∞ หากค่าที่ขาดหายไปจะถูกแทนที่ด้วยการพูด, "ไม่ทราบ" แล้วโปรแกรมการทำเหมืองแร่อาจเข้าใจผิดคิดว่าพวกเขากลายเป็นแนวคิดที่น่าสนใจตั้งแต่พวกเขาทั้งหมดมีค่าเหมือนกัน- ". ที่ไม่รู้จัก" ที่ดังนั้นแม้ว่าวิธีการนี้เป็นเรื่องง่ายจะไม่แนะนำ. (ง) การใช้แอตทริบิวต์หมายเชิงปริมาณ (ตัวเลข) ค่าหรือโหมดสำหรับแอตทริบิวต์เด็ดขาด(ตามที่ระบุ) ค่า: ตัวอย่างเช่นสมมติว่ารายได้เฉลี่ยของลูกค้า AllElectronics คือ$ 28,000 ใช้ค่านี้เพื่อแทนที่ค่าที่ขาดหายไปสำหรับรายได้. (จ) การใช้แอตทริบิวต์หมายเชิงปริมาณ (ตัวเลข) ค่าหรือโหมดแอตทริบิวต์สำหรับเด็ดขาด(ตามที่ระบุ) ค่าสำหรับตัวอย่างทั้งหมดที่เป็นระดับเดียวกับ tuple ได้รับ: สำหรับตัวอย่างเช่นถ้าจำแนกลูกค้าตามความเสี่ยงด้านเครดิตให้เปลี่ยนค่าที่ขาดหายไปกับค่าเฉลี่ยมูลค่ารายได้ให้กับลูกค้าในหมวดหมู่ความเสี่ยงด้านเครดิตเช่นเดียวกับที่ tuple ที่กำหนด. (ฉ) การใช้ค่าน่าจะเป็นที่สุดในการกรอกค่าที่ขาดหายไป: นี่อาจจะเป็น กำหนดด้วยการถดถอยเครื่องมือการอนุมานโดยใช้แบบคชกรรมหรือการตัดสินใจเหนี่ยวนำต้นไม้ ยกตัวอย่างเช่นการใช้คุณลักษณะของลูกค้าอื่น ๆ ที่อยู่ในชุดข้อมูลที่เราสามารถสร้างต้นไม้การตัดสินใจที่จะคาดการณ์ค่าที่ขาดหายไปสำหรับรายได้. 2.7 ใช้เสื้อ
การแปล กรุณารอสักครู่..
