Estimation of term-weights and -ang

Estimation of term-weights and -angles
A manual setting of all term-weights and term-angles
is not efficient because of the high amount of terms and
the even higher amount of angles. We used the following
estimation for our first experiment:
Assumption: All terms which occur in more than 50%
of the documents are not useful for any kind of
classification. Thus, term-weights for these terms are set
to value zero which implies that the scalar product of
these terms in relation to other terms is also zero.
Assumption: Terms which occur in less than 1% of the
documents do not provide enough data to calculate a
reliable estimation on term relations. Therefore, these
terms are treated as orthogonal to all other terms.
Consequently, = 90° ij ω for all i ≠ j . The term-weights
for these terms are set to value one.
The term-weights for all other remaining terms are set
to value one while the angles are set to the following
values:
else
if Corr( ´, ´) 0
90
90 90 Corr( ´, ´) ≥
  
°
° − ° ⋅
= i j i j
ij
T T T T
ω
Corr( ´, ´) i j T T is the empirical correlation of terms i and j
within a document base.
The estimation of term-weights and -angles can be
improved by using explicit information about the natural
language of the documents and by using explicit information
about semantic coherence of words. The following
improvements should be investigated in the future
regarding their influence on classification quality:
• A stopword-list should be used to assign a null value
as weight to all stopwords.
• A stemming-list or a stemming-algorithm should be
used to assign a null-value to all angles between two
words with the same stem.
• Term-angles reflecting semantic coherence of words
could be derived from a thesaurus, a semantic web or
from a formalized ontology.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

การประมาณคำน้ำหนักและ - มุม
อดน้ำหนักระยะและระยะมุม
ไม่มีประสิทธิภาพเนื่องจากจำนวนเงินที่สูงของเงื่อนไข และ
จำนวนมุมสูง เราใช้ต่อ
ประเมินในการทดลองครั้งแรกของเรา:
อัสสัมชัญ: เงื่อนไขทั้งหมดซึ่งเกิดขึ้นกว่า 50%
ของเอกสารจะไม่มีประโยชน์ใด ๆ ชนิดของ
จัดประเภท ดังนั้น น้ำหนักระยะเหล่านี้สำหรับเงื่อนไขตั้ง
ค่าศูนย์ซึ่งหมายถึงการที่ผลคูณสเกลาร์ของ
ข้อตกลงเกี่ยวกับเงื่อนไขอื่น ๆ ได้นอกจากนี้ยังเป็นศูนย์
อัสสัมชัญ: เงื่อนไขซึ่งเกิดขึ้นน้อยกว่า 1% ของ
เอกสารยังไม่มีข้อมูลเพียงพอในการคำนวณการ
ประเมินความน่าเชื่อถือความสัมพันธ์ระยะ ดังนั้น นี้
เงื่อนไขจะถือว่าเป็น orthogonal กับทั้งหมดอื่น ๆ เงื่อนไข
ดัง = 90° ij แคωทั้งหมดฉัน≠ j น้ำหนักระยะ
สำหรับเงื่อนไขเหล่านี้จะตั้งค่าหนึ่ง
ตั้งน้ำหนักระยะสำหรับเงื่อนไขอื่น ๆ ที่เหลือ
ค่าหนึ่งในขณะที่มุมการตั้งค่าต่อไป
ค่า:
อื่น
ถ้าคอรร์ (´ ´) 0
90
90 90 คอรร์ (´ ´) ≥

°
°−°⋅
=ฉันเจฉันเจ
ij แค
T T T T
ω
คอรร์ (´ ´) ฉันเจ T T เป็นความสัมพันธ์ของผลของเงื่อนไขผมและเจ
ภายในฐานเอกสาร
สามารถประเมินระยะตวง - มุม
ขึ้น โดยใช้ข้อมูลที่ชัดเจนเกี่ยวกับธรรมชาติ
ภาษา ของเอกสาร และข้อมูลชัดเจนโดย
เกี่ยวกับศักยภาพความหมายของคำได้ ต่อไปนี้
ควรถูกตรวจสอบการปรับปรุงในอนาคต
เกี่ยวกับอิทธิพลประเภทคุณภาพ:
• A stopword รายการควรใช้การกำหนดค่า null
เป็นน้ำหนักทั้งหมด stopwords ได้
• A กำลังรายการหรือเป็นประเทศอัลกอริทึมควรจะ
ใช้เพื่อกำหนดค่า null ให้มุมทั้งหมดระหว่างสอง
คำ มีเดียวก้านได้
•ระยะมุมสะท้อนให้เห็นถึงความหมายศักยภาพของคำ
อาจมาจากอรรถาภิ เว็บเชิงความหมาย หรือ
จากภววิทยาอย่างเป็นทางการ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การประมาณค่าของคำน้ำหนักและ -angles
การตั้งค่าการใช้งานทุกระยะน้ำหนักและระยะมุม-
ไม่ได้มีประสิทธิภาพเพราะของจำนวนเงินที่สูงของข้อกำหนดและ
จำนวนเงินที่สูงขึ้นของมุม เราใช้ดังต่อไปนี้
การประเมินสำหรับการทดลองครั้งแรกของเรา:
อัสสัมชั: เงื่อนไขทั้งหมดที่เกิดขึ้นในกว่า 50%
ของเอกสารที่ไม่เป็นประโยชน์สำหรับชนิดของการใด ๆ
การจัดหมวดหมู่ ดังนั้นระยะน้ำหนักสำหรับคำเหล่านี้จะถูกตั้ง
ค่าเป็นศูนย์ซึ่งหมายความว่าผลคูณของ
คำเหล่านี้มีความสัมพันธ์กับเงื่อนไขอื่น ๆ นอกจากนี้ยังเป็นศูนย์
อัสสัมชัข้อตกลงที่เกิดขึ้นในเวลาที่น้อยกว่า 1% ของ
เอกสารที่ไม่ได้ให้ข้อมูลเพียงพอที่จะ คำนวณ
ประมาณการที่เชื่อถือได้ในความสัมพันธ์ระยะยาว ดังนั้นเหล่านี้
เงื่อนไขจะถือว่าเป็นฉากกับเงื่อนไขอื่น ๆ ทั้งหมด
ดังนั้น = 90 ° IJ ωสำหรับทั้งหมดที่ฉัน≠ญ ระยะน้ำหนัก-
สำหรับคำเหล่านี้จะถูกตั้งค่าอย่างใดอย่างหนึ่ง
ในระยะน้ำหนักสำหรับทุกคำอื่น ๆ ที่เหลือจะถูกตั้ง
ค่าอย่างใดอย่างหนึ่งในขณะที่มุมที่กำหนดให้ดังต่อไปนี้
ค่า:
อื่น
ถ้า Corr (',') 0
90
90 90 Corr (',') ≥

°
° - °⋅
= ijij
IJ
T TTT
ω
Corr (',') ทีทีเจเป็นความสัมพันธ์เชิงประจักษ์ของข้อตกลง i และ j
ภายในฐานเอกสาร
ประมาณระยะน้ำหนักและ - มุมที่สามารถ
ปรับปรุงให้ดีขึ้นโดยใช้ข้อมูลที่ชัดเจนเกี่ยวกับธรรมชาติ
ภาษาของเอกสารและโดยการใช้ข้อมูลที่ชัดเจน
เกี่ยวกับการเชื่อมโยงความหมายของคำ ต่อไปนี้
การปรับปรุงควรจะสอบสวนในอนาคต
เกี่ยวกับอิทธิพลของพวกเขาที่มีต่อคุณภาพการจัดหมวดหมู่:
• stopword รายการควรจะใช้ในการกำหนดค่า null
เป็นน้ำหนักที่จะ stopwords ทั้งหมด
•เกิดรายการหรือเกิดขั้นตอนวิธีที่ควรจะ
ใช้ในการกำหนด โมฆะมูลค่าให้กับทุกมุมระหว่างสอง
คำที่มีต้นกำเนิดเดียวกัน
•ขอบเขตมุมที่สะท้อนให้เห็นถึงการเชื่อมโยงกัน-ความหมายของคำ
ที่อาจจะมาจากพจนานุกรม, เว็บความหมายหรือ
จากอภิปรัชญากรงเล็บ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

มุมประมาณระยะและน้ำหนัก - : คู่มือการตั้งค่าทั้งหมดของน้ำหนักในระยะและมุมในระยะ
ไม่มีประสิทธิภาพเนื่องจากปริมาณสูงของเงื่อนไขและ
แม้ปริมาณมุม เราใช้ประมาณ 1 ของเราต่อไปนี้
:
สมมติฐาน : เงื่อนไขทั้งหมดที่เกิดขึ้นในกว่า 50 %
ของเอกสารไม่ได้ประโยชน์ใด ๆ ชนิดของ
การจำแนก ดังนั้นระยะน้ำหนักสำหรับเงื่อนไขเหล่านี้ตั้ง
ค่าศูนย์ซึ่งหมายความว่าสเกลาร์ผลิตภัณฑ์
ข้อตกลงในความสัมพันธ์กับเงื่อนไขอื่น ๆ นอกจากนี้ยังมีศูนย์ .
สมมติฐาน : เงื่อนไขที่เกิดขึ้นในน้อยกว่า 1 %
เอกสารที่ไม่ได้ให้ข้อมูลเพียงพอที่จะคำนวณค่าความน่าเชื่อถือในความสัมพันธ์ระยะยาว
. ดังนั้น เงื่อนไขเหล่านี้
จะถือว่าเป็น ) เงื่อนไขอื่น ๆทั้งหมด .
จากนั้น= 90 องศาω IJ สำหรับผม≠ J . ระยะน้ำหนัก
สำหรับเงื่อนไขเหล่านี้ตั้งค่าหนึ่ง .
ระยะน้ำหนักทั้งหมดอื่น ๆที่เหลือมีการตั้งค่า
ค่าหนึ่งในขณะที่มุมตั้งค่าต่อไปนี้
:

ถ้าคนอื่นคอรร์ ( ใหม่ใหม่
0
, ) 90 90 90 , 500 , 000 บาท ( ใหม่ใหม่ , ≥
 ) 

/ / /
= −⋅จิ J
ij
T T T T

ωคอรร์ ( ใหม่ใหม่ , ผม J T T เป็นเชิงความสัมพันธ์ของเงื่อนไขและ J

เอกสารภายในฐานการประมาณค่าของระยะและน้ำหนัก - มุมสามารถปรับปรุงได้โดยการใช้ข้อมูลที่ชัดเจน

ภาษาเกี่ยวกับธรรมชาติของเอกสารและข้อมูลที่ชัดเจนเกี่ยวกับการใช้
ความหมายของคำ ต่อไปนี้
ปรับปรุง ควรจะตรวจสอบในอนาคต
เกี่ยวกับ อิทธิพลของการจำแนกคุณภาพ :
- รายการ stopword ควรจะใช้เพื่อกำหนด
ค่าว่างน้ำหนักทั้งหมด stopwords .
- A ซึ่งมีรายการหรือกั้นวิธีควร
ใช้กําหนดค่า null ทุกมุมระหว่างสอง
คำที่มีก้านเดียวกัน สะท้อนการมองโลกมุมบวกระยะ

ความหมายของคำอาจจะมาจากพจนานุกรม , ความหมายของเว็บหรือ
จากคราวอภิปรัชญา .

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.