PerformanceWe implemented the TVSM

Performance
We implemented the TVSM on a PostgreSQL5 version
7.2 relational database. For a better performance, only
entries with a scalar-product larger than the scalarthreshold
0.5 are stored in the “scalarproduct” table (this
is equivalent to set all scalar-products lesser than the
scalar-threshold to value zero). For our tests, we used
7184 news documents from the German Heise-Ticker6
Website. 96887 terms have been extracted from these
documents and have been stored in the “term” table. From
this data-basis term-weights and -angles have been
derived as already described in section 2.5 (with the
restriction of the scalar-threshold). Table “scalarproduct”
contained 97509 entries. The calculation of the similarity
between a general document (having 164 different terms)
and all 7184 documents (including reverse ordering by
similarity) needed approximately five seconds on our
generic PC (Athlon XP 1600+ processor with 768 MByte
Ram and FreeBSD operating system). First performance
tests showed that the calculation speed highly depends on
the number of entries in table “scalarpoduct” and that it
only depends very low on the number of terms or
documents. This means the scalar-threshold is a good
variable to adjust the calculation speed versus the quality
of similarity-calculation.
4. Comparison with other vector-based
approaches
Both, the Vector Space Model (VSM) [Salton 1968;
Baezea-Yates 1999, pp. 27-30] and the TVSM assign a
document-vector to each document. In contrast to the
TVSM the VSM assumes that all terms are independent
(orthogonal) to each other. This leads to a relatively high
performance. The assumption of orthogonal terms is
incorrect regarding natural languages which causes
problems with synonyms or strong related terms. In order
to reduce these problems messages are usually passed
through a stopword-list, stemming- and thesaurusalgorithms
before they are forwarded to the VSM. This
abrogates the assumption of term independence only in
parts, because two terms can simply be treated as
equivalent or as not equivalent. Similarity levels between
these two extremes are not possible. From the theoretical
point of view the TVSM has the advantage of not
assuming independence for terms which allows a full
integration of stopword-list, stemming and thesaurus into
the model. Similarity between terms can be gradually
defined from “not equivalent” (term-angle: 90°) to
“equivalent” (term-angle: 0°).
The Generalized Vector Space Model (GVSM) [Wong
1987; Beaza-Yates 1999, pp. 41-44] assigns a documentvector
to each document without the assumption of
orthogonal terms. In contrast to the TVSM the GVSM
allows no flexibility regarding the computation of termangles:
in the GVSM term-angles are based on the computation
of co-occurrence of terms. Because of this limitation
messages have to be pre-processed in a similar way
like for the VSM: Messages are passed through a
stopword-list and stemming-algorithms before they are
forwarded to the GVSM. In contrast to the GVSM the
TVSM specifies only ideal properties of term-angles
(refer section 2.4). Therefore the TVSM allows more
flexibility regarding the calculation of term-angles. Termangles
can be computed using different statistical methods

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ประสิทธิภาพ
เราดำเนินการ TVSM รุ่น PostgreSQL5
7.2 ฐานข้อมูลเชิงสัมพันธ์ สำหรับการประสิทธิภาพที่ดีขึ้น เท่า
รายการกับสเกลาร์ผลิตภัณฑ์ scalarthreshold มากกว่า
0.5 ถูกเก็บอยู่ในตาราง "scalarproduct" (นี้
เท่ากับการตั้งค่าทั้งหมดสเกลาร์ผลิตภัณฑ์น้อยกว่า
สเกลาร์ขีดจำกัดค่าศูนย์) สำหรับการทดสอบของเรา เราใช้
7184 ข่าวเอกสารจากเยอรมัน Heise Ticker6
เว็บไซต์ แยกเข้าเงื่อนไข 96887
เอกสาร และจัดเก็บไว้ในตาราง "ระยะ" จาก
พื้นฐานข้อมูลนี้น้ำหนักระยะ และ - มุมได้
มาเป็นอธิบายไว้ในส่วน 2.5 (มี
จำกัดของสเกลาร์ขีดจำกัด) ตาราง "scalarproduct"
97509 รายการอยู่ การคำนวณคล้ายคลึง
ระหว่างเอกสารทั่วไป (มีเงื่อนไขต่าง ๆ 164)
และเอกสารทั้งหมด 7184 (รวมถึงสั่งซื้อย้อนหลังโดย
คล้าย) ต้องประมาณ 5 วินาทีบนเรา
PC ทั่วไป (Athlon XP 1600 หน่วยประมวลผลกับ 768 MByte
ระบบปฏิบัติการ FreeBSD และ Ram) ประสิทธิภาพแรก
ทดสอบพบว่า ความเร็วในการคำนวณสูงขึ้นอยู่กับ
หมายเลขรายการในตาราง "scalarpoduct" และ
เท่านั้น มากน้อยขึ้นอยู่กับจำนวนเงื่อนไข หรือ
เอกสาร ซึ่งหมายความว่า สเกลาร์ขีดจำกัดกำลัง
แปรปรับความเร็วในการคำนวณเทียบกับคุณภาพ
ของคล้าย-คำนวณ
4 เปรียบเทียบกับอื่น ๆ เวกเตอร์ตาม
วิธี
ทั้ง เวกเตอร์แบบจำลอง (VSM) [Salton 1968;
Baezea Yates 1999 นำ 27-30] และกำหนด TVSM เป็น
เวกเตอร์เอกสารแต่ละเอกสาร ในทางตรงกันข้ามกับ
TVSM VSM สมมติว่า เงื่อนไขทั้งหมดเป็นอิสระ
(orthogonal) กัน นี้นำไปสู่ค่อนข้างสูง
ประสิทธิภาพ เป็นสมมติฐานของ orthogonal
ถูกต้องเกี่ยวกับภาษาธรรมชาติที่ทำให้
ปัญหา ด้วยคำเหมือน หรือแรงที่เกี่ยวข้องกับเงื่อนไข ลำดับ
ลด ข้อความปัญหาเหล่านี้เป็นปกติผ่าน
stopword-รายการ ประเทศ- และ thesaurusalgorithms
ก่อนนำส่งต่อ VSM นี้
abrogates อัสสัมชัญเอกราชระยะเฉพาะใน
อะไหล่ เพราะเงื่อนไขที่สองก็จะถือว่าเป็น
เทียบเท่า หรือไม่เท่านั้น ระดับความคล้ายระหว่าง
สุดสองเหล่านี้ไม่ได้ จากทฤษฎีที่
มอง TVSM มีประโยชน์ของไม่
สมมติว่าเอกราชสำหรับเงื่อนไขซึ่งทำให้เต็ม
รวม stopword รายประเทศ และอรรถาภิธานเป็น
แบบ ความคล้ายคลึงกันระหว่างเงื่อนไขคุณต้องค่อย ๆ
กำหนดจาก "ไม่เท่า" (ระยะมุม: 90°) การ
"เทียบเท่า" (ระยะมุม: 0°) .
ตั้งค่าทั่วไปเวกเตอร์แบบจำลอง (GVSM) [วง
1987 Beaza Yates 1999 นำ 41-44] กำหนดเป็น documentvector
แต่ละเอกสารโดยสมมติฐานของ
orthogonal เงื่อนไข ตรงข้าม TVSM GVSM
ให้ความยืดหยุ่นไม่เกี่ยวกับการคำนวณ termangles:
ใน GVSM มุมระยะขึ้นอยู่กับการคำนวณ
ของเงื่อนไขการเกิดร่วมกัน เนื่องจากข้อจำกัดนี้
ข้อต้องทำก่อนใน
เช่น VSM: ผ่านข้อความ
stopword รายการและกำลังอัลกอริทึมก่อน
ส่งต่อไป GVSM ตรงข้าม GVSM
TVSM ระบุคุณสมบัติเหมาะเท่าของระยะมุม
(refer section 2.4) ดังนั้น TVSM ช่วยเพิ่มเติม
ความยืดหยุ่นเกี่ยวกับคำนวณระยะมุม Termangles
สามารถคำนวณได้โดยใช้วิธีทางสถิติ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ประสิทธิภาพการทำงานที่
เราดำเนินการ TVSM ในรุ่น PostgreSQL5
7.2 ฐานข้อมูลเชิงสัมพันธ์ สำหรับประสิทธิภาพที่ดีขึ้นเพียง
รายการที่มีสเกลาร์ผลิตภัณฑ์ขนาดใหญ่กว่า scalarthreshold
0.5 จะถูกเก็บไว้ใน "scalarproduct" ตาราง (ซึ่ง
เทียบเท่ากับการตั้งค่าทั้งหมดเกลาผลิตภัณฑ์น้อยกว่า
เกลาเกณฑ์ในการประเมินมูลค่าศูนย์) สำหรับการทดสอบของเราเราใช้
7184 เอกสารข่าวจากเยอรมัน Heise-Ticker6
เว็บไซต์ 96,887 คำที่ได้รับการสกัดจากเหล่านี้
เอกสารและได้รับการจัดเก็บไว้ในตาราง "คำว่า" จาก
ข้อมูลพื้นฐานนี้ระยะน้ำหนักและ -angles ได้รับ
มาตามที่อธิบายไว้แล้วในส่วน 2.5 (โดยมี
ข้อ จำกัด ของการเกลาเกณฑ์) ตารางที่ "scalarproduct"
มี 97,509 รายการ การคำนวณความคล้ายคลึงกัน
ระหว่างเอกสารทั่วไป (มี 164 เงื่อนไขที่ต่างกัน)
และ 7184 เอกสาร (รวมถึงการสั่งซื้อกลับโดย
ความคล้ายคลึงกัน) ที่จำเป็นประมาณห้าวินาทีของเรา
คอมพิวเตอร์ทั่วไป (Athlon XP 1600 + โปรเซสเซอร์ที่มี 768 MByte
รามและระบบปฏิบัติการ FreeBSD) ครั้งแรก
การทดสอบแสดงให้เห็นว่าความเร็วในการคำนวณสูงขึ้นอยู่กับ
จำนวนของรายการในตาราง "scalarpoduct" และมัน
เพียง แต่ขึ้นอยู่ที่ต่ำมากกับจำนวนของคำหรือ
เอกสาร ซึ่งหมายความว่าสเกลาเกณฑ์ที่ดีเป็น
ตัวแปรที่จะปรับความเร็วในการคำนวณเมื่อเทียบกับคุณภาพ
ของความคล้ายคลึงกันคำนวณ
4 เมื่อเทียบกับเวกเตอร์อื่น ๆ ตาม
วิธีการ
ทั้งสองรุ่นสเปซเวกเตอร์ (VSM) [Salton 1968;
. Baezea-เยตส์ 1999, pp 27-30] และ TVSM กำหนด
เอกสารเวกเตอร์ในเอกสารแต่ละ ในทางตรงกันข้ามกับ
TVSM VSM สมมติว่าข้อตกลงมีความเป็นอิสระ
(ฉาก) ให้กันและกัน นี้นำไปสู่การที่ค่อนข้างสูง
ประสิทธิภาพ สมมติฐานของข้อตกลงเป็นฉาก
ที่ไม่ถูกต้องเกี่ยวกับภาษาธรรมชาติที่ทำให้เกิด
ปัญหากับคำพ้องความหมายหรือคำที่เกี่ยวข้องที่แข็งแกร่ง เพื่อ
ที่จะลดปัญหาเหล่านี้มักจะได้รับข้อความผ่าน
ผ่าน stopword รายการ, stemming- และ thesaurusalgorithms
ก่อนที่จะถูกส่งต่อไปยัง VSM นี้
abrogates สมมติฐานของคำอิสระเฉพาะใน
ส่วนเพราะคำสองคำก็สามารถได้รับการปฏิบัติในฐานะ
เทียบเท่าหรือที่จะไม่เทียบเท่า ระดับความคล้ายคลึงกันระหว่าง
สองขั้วนี้เป็นไปไม่ได้ จากทฤษฎี
มุมมอง TVSM มีข้อได้เปรียบของการไม่
เข้าใจความเป็นอิสระสำหรับคำซึ่งจะช่วยให้เต็มรูปแบบ
บูรณาการของ stopword รายการกั้นและพจนานุกรมใน
รูปแบบ ความคล้ายคลึงกันระหว่างคำที่สามารถค่อยๆ
กำหนดจาก "ไม่คิด" (ระยะมุม: 90 °) ที่จะ
"คิด" (ระยะมุม: 0 °)
ทั่วไปเวกเตอร์รุ่นสเปซ (GVSM) [วงศ์
1987; Beaza-เยตส์ 1999, pp. 41-44] กำหนด documentvector
เอกสารแต่ละโดยไม่ต้องสมมติฐานของ
การตั้งฉาก ในทางตรงกันข้ามกับ TVSM GVSM
ช่วยให้ความยืดหยุ่นไม่เกี่ยวกับการคำนวณ termangles:
ใน GVSM ระยะมุมที่ยังขึ้นอยู่กับการคำนวณ
ของผู้ร่วมการเกิดขึ้นของข้อตกลง เนื่องจากข้อ จำกัด นี้
ข้อความจะต้องมีการเตรียมการดำเนินการในลักษณะที่คล้ายกัน
เช่น VSM: ข้อความจะถูกส่งผ่าน
stopword รายชื่อและขั้นตอนวิธีการกั้นก่อนที่พวกเขาจะถูก
ส่งต่อไปยัง GVSM ในทางตรงกันข้ามกับ GVSM
TVSM ระบุเพียงคุณสมบัติที่เหมาะสมของระยะมุม-
(โปรดดูส่วน 2.4) ดังนั้น TVSM ช่วยให้มากขึ้น
เกี่ยวกับความยืดหยุ่นในการคำนวณระยะมุม- Termangles
สามารถคำนวณได้โดยใช้วิธีการทางสถิติที่แตกต่างกัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การแสดง
เราใช้ tvsm บน postgresql5
7.2 รุ่นฐานข้อมูลเชิงสัมพันธ์ . เพื่อประสิทธิภาพที่ดีขึ้น , รายการเฉพาะ
ด้วยสเกลาร์สินค้าขนาดใหญ่กว่า scalarthreshold
0.5 จะถูกเก็บไว้ใน " ตาราง scalarproduct " (
เทียบเท่ากับผลิตภัณฑ์ชุดสเกลาร์ทั้งหมดน้อยกว่า
สเกลาร์เกณฑ์ค่าศูนย์ ) สำหรับการทดสอบของเรา เราใช้

heise-ticker6 เอกสารข่าว 7184 จากเยอรมันเว็บไซต์ 96887 ข้อตกลงได้ถูกสกัดจากเอกสารเหล่านี้
และถูกเก็บไว้ใน " เงื่อนไข " ตาราง จากข้อมูลพื้นฐานระยะและน้ำหนัก
-
ได้มุมได้ตามที่อธิบายไว้แล้วในส่วน 2.5 ( มีข้อ จำกัด ของเกณฑ์
สเกลาร์ ) ตาราง scalarproduct "
ที่มีอยู่ 97509 รายการ การคำนวณความคล้าย
ระหว่างเอกสารทั่วไป ( มี 164 เงื่อนไขที่ต่างกัน )
และ 7184 เอกสาร ( รวมทั้งกลับสั่ง
ความเหมือน ) ต้องการประมาณ 5 วินาทีบนพีซีทั่วไปของเรา
( Athlon XP 1600 ประมวลผลกับ 768 เมกะไบต์
RAM และ FreeBSD ระบบปฏิบัติการ ) การทดสอบการปฏิบัติ
ครั้งแรกพบว่าคํานวณความเร็วสูง ขึ้นอยู่กับจำนวนของรายการในโต๊ะ

" scalarpoduct " และว่ามันมากน้อยเพียงแต่ขึ้นอยู่กับจำนวนของข้อตกลงหรือ
เอกสารหมายถึง เกณฑ์ดี
สเกลาร์คือตัวแปรเพื่อปรับความเร็วในการคำนวณเมื่อเทียบกับคุณภาพของการคำนวณความคล้าย
.
4 การเปรียบเทียบกับเวกเตอร์อื่น ๆตามแนว

ทั้งในปริภูมิเวกเตอร์แบบ ( vsm Salton 1968 ) [ ;
baezea เยตส์ 1999 , pp . 20 ] และ tvsm กำหนด
เอกสารเวกเตอร์เอกสารแต่ละ ในทางตรงกันข้ามกับ
tvsm ที่ vsm ถือว่าเงื่อนไขทั้งหมดเป็นอิสระ
( Orthogonal ) กับแต่ละอื่น ๆ นี้นำไปสู่ประสิทธิภาพค่อนข้างสูง

สมมติฐานของข้อตกลงซึ่งจะไม่ถูกต้องเกี่ยวกับภาษา ซึ่งสาเหตุธรรมชาติ

ปัญหากับคำพ้องความหมาย หรือแรงที่เกี่ยวข้องกับเงื่อนไข เพื่อที่จะลดปัญหาเหล่านี้

ข้อความที่มักจะผ่านทางรายการ stopword ที่เกิด - และ thesaurusalgorithms
ก่อนที่จะส่งต่อไปยัง vsm . นี้
abrogates สมมติฐานของระยะอิสระเฉพาะใน
ส่วน เพราะสองแง่ ก็ถือว่าเป็น
เทียบเท่าหรือไม่เทียบเท่า ระดับความเหมือนระหว่าง
extremes สองเหล่านี้ก็เกิดขึ้นไม่ได้ จากจุดของมุมมองทางทฤษฎี
tvsm ได้ประโยชน์ไม่
สมมติว่าความเป็นอิสระสำหรับเงื่อนไขที่ช่วยให้การบูรณาการเต็มรูปแบบของรายการ stopword
,
( และพจนานุกรมในรูปแบบความคล้ายคลึงกันระหว่างเงื่อนไขสามารถค่อยๆ
กำหนดจาก " ไม่เท่ากับ " ( มุม 90 องศาระยะ )
" เทียบเท่า " ( มุม 0 องศาระยะ ) .
แบบทั่วไปในปริภูมิเวกเตอร์แบบ ( gvsm ) [ วง
1987 ; beaza เยตส์ 1999 , pp . 41-44 ] ส่ง documentvector
เอกสารแต่ละไม่มีสมมติฐานของ
เงื่อนไข ) . ในทางตรงกันข้ามกับ tvsm ที่ gvsm
ช่วยให้ไม่มีความยืดหยุ่นในการคำนวณ termangles :
ใน gvsm ระยะมุมที่อยู่บนพื้นฐานของการคิดคำนวณ
ของเงื่อนไข เนื่องจากข้อ จำกัด ของ
ข้อความนี้ต้องก่อนการประมวลผลในวิธีที่คล้ายกัน
ชอบสำหรับ vsm : ข้อความจะถูกส่งผ่าน
รายการ stopword กั้นขั้นตอนวิธีและก่อนที่จะถูกส่งต่อไปยัง gvsm
. ในทางตรงกันข้ามกับ gvsm
tvsm ระบุคุณสมบัติที่เหมาะเฉพาะมุมในระยะ
( หมายถึงส่วน 2.4 )ดังนั้น tvsm ช่วยให้ความยืดหยุ่นมากขึ้น
เกี่ยวกับการคำนวณมุมที่ระยะยาว termangles
สามารถคำนวณโดยใช้วิธีการทางสถิติต่าง ๆ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.