Estimation of term-weights and -angles
A manual setting of all term-weights and term-angles
is not efficient because of the high amount of terms and
the even higher amount of angles. We used the following
estimation for our first experiment:
Assumption: All terms which occur in more than 50%
of the documents are not useful for any kind of
classification. Thus, term-weights for these terms are set
to value zero which implies that the scalar product of
these terms in relation to other terms is also zero.
Assumption: Terms which occur in less than 1% of the
documents do not provide enough data to calculate a
reliable estimation on term relations. Therefore, these
terms are treated as orthogonal to all other terms.
Consequently, = 90° ij ω for all i ≠ j . The term-weights
for these terms are set to value one.
The term-weights for all other remaining terms are set
to value one while the angles are set to the following
values:
else
if Corr( ´, ´) 0
90
90 90 Corr( ´, ´) ≥
°
° − ° ⋅
= i j i j
ij
T T T T
ω
Corr( ´, ´) i j T T is the empirical correlation of terms i and j
within a document base.
The estimation of term-weights and -angles can be
improved by using explicit information about the natural
language of the documents and by using explicit information
about semantic coherence of words. The following
improvements should be investigated in the future
regarding their influence on classification quality:
• A stopword-list should be used to assign a null value
as weight to all stopwords.
• A stemming-list or a stemming-algorithm should be
used to assign a null-value to all angles between two
words with the same stem.
• Term-angles reflecting semantic coherence of words
could be derived from a thesaurus, a semantic web or
from a formalized ontology.
มุมประมาณระยะและน้ำหนัก - : คู่มือการตั้งค่าทั้งหมดของน้ำหนักในระยะและมุมในระยะ
ไม่มีประสิทธิภาพเนื่องจากปริมาณสูงของเงื่อนไขและ
แม้ปริมาณมุม เราใช้ประมาณ 1 ของเราต่อไปนี้
:
สมมติฐาน : เงื่อนไขทั้งหมดที่เกิดขึ้นในกว่า 50 %
ของเอกสารไม่ได้ประโยชน์ใด ๆ ชนิดของ
การจำแนก ดังนั้นระยะน้ำหนักสำหรับเงื่อนไขเหล่านี้ตั้ง
ค่าศูนย์ซึ่งหมายความว่าสเกลาร์ผลิตภัณฑ์
ข้อตกลงในความสัมพันธ์กับเงื่อนไขอื่น ๆ นอกจากนี้ยังมีศูนย์ .
สมมติฐาน : เงื่อนไขที่เกิดขึ้นในน้อยกว่า 1 %
เอกสารที่ไม่ได้ให้ข้อมูลเพียงพอที่จะคำนวณค่าความน่าเชื่อถือในความสัมพันธ์ระยะยาว
. ดังนั้น เงื่อนไขเหล่านี้
จะถือว่าเป็น ) เงื่อนไขอื่น ๆทั้งหมด .
จากนั้น= 90 องศาω IJ สำหรับผม≠ J . ระยะน้ำหนัก
สำหรับเงื่อนไขเหล่านี้ตั้งค่าหนึ่ง .
ระยะน้ำหนักทั้งหมดอื่น ๆที่เหลือมีการตั้งค่า
ค่าหนึ่งในขณะที่มุมตั้งค่าต่อไปนี้
:
ถ้าคนอื่นคอรร์ ( ใหม่ใหม่
0
, ) 90 90 90 , 500 , 000 บาท ( ใหม่ใหม่ , ≥
)
/ / /
= −⋅จิ J
ij
T T T T
ωคอรร์ ( ใหม่ใหม่ , ผม J T T เป็นเชิงความสัมพันธ์ของเงื่อนไขและ J
เอกสารภายในฐานการประมาณค่าของระยะและน้ำหนัก - มุมสามารถปรับปรุงได้โดยการใช้ข้อมูลที่ชัดเจน
ภาษาเกี่ยวกับธรรมชาติของเอกสารและข้อมูลที่ชัดเจนเกี่ยวกับการใช้
ความหมายของคำ ต่อไปนี้
ปรับปรุง ควรจะตรวจสอบในอนาคต
เกี่ยวกับ อิทธิพลของการจำแนกคุณภาพ :
- รายการ stopword ควรจะใช้เพื่อกำหนด
ค่าว่างน้ำหนักทั้งหมด stopwords .
- A ซึ่งมีรายการหรือกั้นวิธีควร
ใช้กําหนดค่า null ทุกมุมระหว่างสอง
คำที่มีก้านเดียวกัน สะท้อนการมองโลกมุมบวกระยะ
ความหมายของคำอาจจะมาจากพจนานุกรม , ความหมายของเว็บหรือ
จากคราวอภิปรัชญา .
การแปล กรุณารอสักครู่..