while the latter determines the best attribute to use to split the
current node into several child nodes. We will discuss steps 6–7
in Section 3.1 and steps 4–5 in Sections 3.2 and 3.3.
Typically, for a non-STOP node, we have to select the most discriminatory
attribute for splitting. In order to accomplish this, the
information gain measure (entropy-based approach) is probably
the most popular approach. Gain ratio (Agrawal, Ghosh, Imielinski,
Iyer, & Swami, 1992; Agrawal, Imielinski, & Swami, 1993; Quinlan,
1986, 1993; Umano et al., 1994) and gini index (Mehta, Agrawal, &
Rissanen, 1996; Shafer, Agrawal, & Mehta, 1996; Wang & Zaniolo,
2000) are two famous indices designed by this measure. By computing
the indices, we can determine the appropriateness of an
attribute, and the most appropriate attribute is chosen as the splitting
attribute for the current node.
Unfortunately, this approach could not be used in our problem,
because it cannot handle hierarchical class labels while constructing
a DT. Since the proposed algorithm is designed to construct a
DT with hierarchical class labels, we have to consider the distribution
of the labels of the data over the class hierarchical tree while
developing the DT. Therefore, the proposed measure should be
capable of dealing with hierarchical class labels.
For example, suppose the data in nodes v1 and v2 is shown in
Tables 2 and 3, respectively. Traditionally, the entropy value, a
well-known measure, would be used to determine the appropriateness
of a current node in constructing a DT. If we use an entropy-
based approach to measure the appropriateness of nodes v1 and
v2, we find that both nodes are equally appropriate, because their
entropy values are the same. Moreover, no matter which label is
while the latter determines the best attribute to use to split thecurrent node into several child nodes. We will discuss steps 6–7in Section 3.1 and steps 4–5 in Sections 3.2 and 3.3.Typically, for a non-STOP node, we have to select the most discriminatoryattribute for splitting. In order to accomplish this, theinformation gain measure (entropy-based approach) is probablythe most popular approach. Gain ratio (Agrawal, Ghosh, Imielinski,Iyer, & Swami, 1992; Agrawal, Imielinski, & Swami, 1993; Quinlan,1986, 1993; Umano et al., 1994) and gini index (Mehta, Agrawal, &Rissanen, 1996; Shafer, Agrawal, & Mehta, 1996; Wang & Zaniolo,2000) are two famous indices designed by this measure. By computingthe indices, we can determine the appropriateness of anattribute, and the most appropriate attribute is chosen as the splittingattribute for the current node.Unfortunately, this approach could not be used in our problem,because it cannot handle hierarchical class labels while constructinga DT. Since the proposed algorithm is designed to construct aDT with hierarchical class labels, we have to consider the distributionof the labels of the data over the class hierarchical tree whiledeveloping the DT. Therefore, the proposed measure should becapable of dealing with hierarchical class labels.For example, suppose the data in nodes v1 and v2 is shown inTables 2 and 3, respectively. Traditionally, the entropy value, awell-known measure, would be used to determine the appropriatenessof a current node in constructing a DT. If we use an entropy-based approach to measure the appropriateness of nodes v1 andv2, we find that both nodes are equally appropriate, because theirentropy values are the same. Moreover, no matter which label is
การแปล กรุณารอสักครู่..

ขณะที่หลังกำหนดคุณลักษณะที่ดีที่สุดที่จะใช้ในการแยกโหนดปัจจุบันลงในโหนดลูกหลาย
เราจะหารือเกี่ยวกับขั้นตอนที่ 6-7
ในข้อ 3.1 และตามขั้นตอนที่ 4-5 ในมาตรา 3.2 และ 3.3.
โดยปกติสำหรับโหนดที่ไม่หยุดเราต้องเลือกเลือกปฏิบัติมากที่สุดแอตทริบิวต์สำหรับการแยก
เพื่อให้บรรลุนี้วัดได้รับข้อมูล (วิธีการปฎิบัติตาม) น่าจะเป็นวิธีที่นิยมมากที่สุด อัตราส่วนกำไร (Agrawal, กอช Imielinski, เยอร์และสวามี 1992; Agrawal, Imielinski และสวามี 1993; ควินแลน, 1986, 1993; Umano et al, 1994.) และดัชนี gini (เมธา Agrawal และRissanen 1996 ; เช Agrawal และเมธา 1996; & วัง Zaniolo, 2000) เป็นสองดัชนีที่มีชื่อเสียงได้รับการออกแบบโดยวัดนี้ โดยการคำนวณดัชนีที่เราสามารถตรวจสอบความเหมาะสมของที่แอตทริบิวต์และแอตทริบิวต์ที่เหมาะสมที่สุดจะถูกเลือกให้เป็นแยกแอตทริบิวต์สำหรับโหนดปัจจุบัน. แต่น่าเสียดายที่วิธีการนี้ไม่สามารถนำมาใช้ในปัญหาของเราเพราะมันไม่สามารถจัดการกับป้ายกำกับระดับลำดับชั้นในขณะที่สร้างDT ตั้งแต่ขั้นตอนวิธีการที่นำเสนอถูกออกแบบมาเพื่อสร้างDT ที่มีป้ายชื่อชั้นลำดับชั้นเราจะต้องพิจารณาการกระจายของป้ายของข้อมูลผ่านชั้นลำดับชั้นในขณะที่การพัฒนาDT ดังนั้นมาตรการที่เสนอควรจะมีความสามารถในการจัดการกับป้ายกำกับระดับลำดับชั้น. ตัวอย่างเช่นสมมติว่าข้อมูลในโหนด v1 และ v2 จะแสดงในตารางที่2 และ 3 ตามลำดับ เดิมค่าเอนโทรปีเป็นวัดที่รู้จักกันดีก็จะถูกใช้ในการกำหนดความเหมาะสมของโหนดปัจจุบันในการสร้างDT ถ้าเราใช้ entropy- วิธีการที่ใช้ในการวัดความเหมาะสมของโหนด v1 และv2 เราจะพบว่าทั้งสองโหนดมีความเหมาะสมอย่างเท่าเทียมกันเพราะพวกเขาค่าเอนโทรปีเหมือนกัน นอกจากนี้ยังมีเรื่องที่ฉลาก
การแปล กรุณารอสักครู่..

ในขณะที่หลังจะกำหนดคุณลักษณะที่ดีที่สุดเพื่อใช้ในการแยก
ปมเป็นโหนดลูกหลาย เราจะหารือเกี่ยวกับขั้นตอนที่ 6 – 7
ในส่วน 3.1 และขั้นตอนที่ 4 และ 5 ในส่วนที่ 3.2 และ 3.3 .
โดยปกติสำหรับโหนดไม่หยุดเราก็จะต้องเลือกคุณสมบัติเลือกปฏิบัติ
ที่สุดสำหรับการแยก เพื่อให้บรรลุเป้าหมายนี้
ข้อมูลเข้าวัด ( Entropy เข้าใกล้ฐานน่าจะเป็น
วิธีที่นิยมมากที่สุด ได้รับอัตราส่วน ( Agrawal ghosh imielinski
, , , ไอเยอร์&สวามี , 1992 ; Agrawal imielinski , &สวามี ควินแลน , 1993 ;
, 1986 , 1993 ; umano et al . , 1994 ) และดัชนีจีนี ( ตา Agrawal &
rissanen , 1996 ; Agrawal Shafer , , & Mehta , 1996 ; วัง & zaniolo
2000 ) , สองดัชนีที่มีชื่อเสียงออกแบบโดยวัดนี้ โดยการคำนวณ
ดัชนีที่เราสามารถพิจารณาความเหมาะสมของ
คุณลักษณะ และคุณสมบัติที่เหมาะสมที่สุดจะถูกเลือกเป็นแอตทริบิวต์ที่แยกสำหรับปม
.
แต่วิธีการนี้ไม่สามารถใช้ในปัญหาของเรา เพราะมันไม่สามารถจัดการเรียน
ขณะที่การสร้างป้ายลดหลั่นเป็น DT . ตั้งแต่วิธีที่เสนอถูกออกแบบมาเพื่อสร้าง
DT กับป้ายชั้นลดหลั่นกัน เราต้องพิจารณา
กระจายของป้ายชื่อของข้อมูลผ่านระดับลำดับชั้นต้นไม้ในขณะที่
พัฒนา DT . ดังนั้น การเสนอมาตรการที่ควรจะสามารถจัดการกับป้าย
ชั้นลดหลั่น . ตัวอย่างเช่น สมมติว่า ข้อมูลในโหนด v1 และ v2
แสดงใน ตารางที่ 2 และ 3 ตามลำดับ ตามธรรมเนียม ค่าเอนโทรปี ,
วัดที่รู้จักกันดี จะใช้เพื่อกำหนดความเหมาะสม
ของโหนดปัจจุบันสร้าง DT . ถ้าเราใช้เอนโทรปี -
วิธีการที่ใช้เพื่อวัดความเหมาะสมของโหนด V1 และ V2
, เราพบว่าโหนดทั้งสองเท่าเทียมกันที่เหมาะสมเพราะค่า
เอนโทรปีพวกเขาเหมือนกัน นอกจากนี้ ไม่ว่าที่ป้ายคือ
การแปล กรุณารอสักครู่..
