PerformanceWe implemented the TVSM

Performance
We implemented the TVSM on a PostgreSQL5 version
7.2 relational database. For a better performance, only
entries with a scalar-product larger than the scalarthreshold
0.5 are stored in the “scalarproduct” table (this
is equivalent to set all scalar-products lesser than the
scalar-threshold to value zero). For our tests, we used
7184 news documents from the German Heise-Ticker6
Website. 96887 terms have been extracted from these
documents and have been stored in the “term” table. From
this data-basis term-weights and -angles have been
derived as already described in section 2.5 (with the
restriction of the scalar-threshold). Table “scalarproduct”
contained 97509 entries. The calculation of the similarity
between a general document (having 164 different terms)
and all 7184 documents (including reverse ordering by
similarity) needed approximately five seconds on our
generic PC (Athlon XP 1600+ processor with 768 MByte
Ram and FreeBSD operating system). First performance
tests showed that the calculation speed highly depends on
the number of entries in table “scalarpoduct” and that it
only depends very low on the number of terms or
documents. This means the scalar-threshold is a good
variable to adjust the calculation speed versus the quality
of similarity-calculation.
4. Comparison with other vector-based
approaches
Both, the Vector Space Model (VSM) [Salton 1968;
Baezea-Yates 1999, pp. 27-30] and the TVSM assign a
document-vector to each document. In contrast to the
TVSM the VSM assumes that all terms are independent
(orthogonal) to each other. This leads to a relatively high
performance. The assumption of orthogonal terms is
incorrect regarding natural languages which causes
problems with synonyms or strong related terms. In order
to reduce these problems messages are usually passed
through a stopword-list, stemming- and thesaurusalgorithms
before they are forwarded to the VSM. This
abrogates the assumption of term independence only in
parts, because two terms can simply be treated as
equivalent or as not equivalent. Similarity levels between
these two extremes are not possible. From the theoretical
point of view the TVSM has the advantage of not
assuming independence for terms which allows a full
integration of stopword-list, stemming and thesaurus into
the model. Similarity between terms can be gradually
defined from “not equivalent” (term-angle: 90°) to
“equivalent” (term-angle: 0°).
The Generalized Vector Space Model (GVSM) [Wong
1987; Beaza-Yates 1999, pp. 41-44] assigns a documentvector
to each document without the assumption of
orthogonal terms. In contrast to the TVSM the GVSM
allows no flexibility regarding the computation of termangles:
in the GVSM term-angles are based on the computation
of co-occurrence of terms. Because of this limitation
messages have to be pre-processed in a similar way
like for the VSM: Messages are passed through a
stopword-list and stemming-algorithms before they are
forwarded to the GVSM. In contrast to the GVSM the
TVSM specifies only ideal properties of term-angles
(refer section 2.4). Therefore the TVSM allows more
flexibility regarding the calculation of term-angles. Termangles
can be computed using different statistical methods
like co-occurrence or correlation (refer section 2.5).
Further the TVSM allows the deduction of term-angles
from explicit information about the semantic coherence of
words (e. g. from semantic networks or ontology).
5. Conclusion
This paper presents a new approach (TVSM) to
compare documents regarding their content. This
approach has the following advantages: From the
theoretical point of view, the TVSM is an open approach
which enables the integration of several natural language
processing algorithms as stopword-list, stemming and
thesaurus into one model. This facilitates the possibility
of exploration of dependencies between these algorithms
and provides a potential to optimize natural language
processing models in general.
From the practical point of view, the TVSM enables
complete calculation of document-similarities within a
relational-database by using plain SQL. Therefore reliable
processing of huge amounts of data is supported by using
database-integrated optimization algorithms for accessing
and processing the data.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ประสิทธิภาพ
เราดำเนินการ TVSM รุ่น PostgreSQL5
7.2 ฐานข้อมูลเชิงสัมพันธ์ สำหรับการประสิทธิภาพที่ดีขึ้น เท่า
รายการกับสเกลาร์ผลิตภัณฑ์ scalarthreshold มากกว่า
0.5 ถูกเก็บอยู่ในตาราง "scalarproduct" (นี้
เท่ากับการตั้งค่าทั้งหมดสเกลาร์ผลิตภัณฑ์น้อยกว่า
สเกลาร์ขีดจำกัดค่าศูนย์) สำหรับการทดสอบของเรา เราใช้
7184 ข่าวเอกสารจากเยอรมัน Heise Ticker6
เว็บไซต์ แยกเข้าเงื่อนไข 96887
เอกสาร และจัดเก็บไว้ในตาราง "ระยะ" จาก
พื้นฐานข้อมูลนี้น้ำหนักระยะ และ - มุมได้
มาเป็นอธิบายไว้ในส่วน 2.5 (มี
จำกัดของสเกลาร์ขีดจำกัด) ตาราง "scalarproduct"
97509 รายการอยู่ การคำนวณคล้ายคลึง
ระหว่างเอกสารทั่วไป (มีเงื่อนไขต่าง ๆ 164)
และเอกสารทั้งหมด 7184 (รวมถึงสั่งซื้อย้อนหลังโดย
คล้าย) ต้องประมาณ 5 วินาทีบนเรา
PC ทั่วไป (Athlon XP 1600 หน่วยประมวลผลกับ 768 MByte
ระบบปฏิบัติการ FreeBSD และ Ram) ประสิทธิภาพแรก
ทดสอบพบว่า ความเร็วในการคำนวณสูงขึ้นอยู่กับ
หมายเลขรายการในตาราง "scalarpoduct" และ
เท่านั้น มากน้อยขึ้นอยู่กับจำนวนเงื่อนไข หรือ
เอกสาร ซึ่งหมายความว่า สเกลาร์ขีดจำกัดกำลัง
แปรปรับความเร็วในการคำนวณเทียบกับคุณภาพ
ของคล้าย-คำนวณ
4 เปรียบเทียบกับอื่น ๆ เวกเตอร์ตาม
วิธี
ทั้ง เวกเตอร์แบบจำลอง (VSM) [Salton 1968;
Baezea Yates 1999 นำ 27-30] และกำหนด TVSM เป็น
เวกเตอร์เอกสารแต่ละเอกสาร ในทางตรงกันข้ามกับ
TVSM VSM สมมติว่า เงื่อนไขทั้งหมดเป็นอิสระ
(orthogonal) กัน นี้นำไปสู่ค่อนข้างสูง
ประสิทธิภาพ เป็นสมมติฐานของ orthogonal
ถูกต้องเกี่ยวกับภาษาธรรมชาติที่ทำให้
ปัญหา ด้วยคำเหมือน หรือแรงที่เกี่ยวข้องกับเงื่อนไข ลำดับ
ลด ข้อความปัญหาเหล่านี้เป็นปกติผ่าน
stopword-รายการ ประเทศ- และ thesaurusalgorithms
ก่อนนำส่งต่อ VSM นี้
abrogates อัสสัมชัญเอกราชระยะเฉพาะใน
อะไหล่ เพราะเงื่อนไขที่สองก็จะถือว่าเป็น
เทียบเท่า หรือไม่เท่านั้น ระดับความคล้ายระหว่าง
สุดสองเหล่านี้ไม่ได้ จากทฤษฎีที่
มอง TVSM มีประโยชน์ของไม่
สมมติว่าเอกราชสำหรับเงื่อนไขซึ่งทำให้เต็ม
รวม stopword รายประเทศ และอรรถาภิธานเป็น
แบบ ความคล้ายคลึงกันระหว่างเงื่อนไขคุณต้องค่อย ๆ
กำหนดจาก "ไม่เท่า" (ระยะมุม: 90°) การ
"เทียบเท่า" (ระยะมุม: 0°) .
ตั้งค่าทั่วไปเวกเตอร์แบบจำลอง (GVSM) [วง
1987 Beaza Yates 1999 นำ 41-44] กำหนดเป็น documentvector
แต่ละเอกสารโดยสมมติฐานของ
orthogonal เงื่อนไข ตรงข้าม TVSM GVSM
ให้ความยืดหยุ่นไม่เกี่ยวกับการคำนวณ termangles:
ใน GVSM มุมระยะขึ้นอยู่กับการคำนวณ
ของเงื่อนไขการเกิดร่วมกัน เนื่องจากข้อจำกัดนี้
ข้อต้องทำก่อนใน
เช่น VSM: ผ่านข้อความ
stopword รายการและกำลังอัลกอริทึมก่อน
ส่งต่อไป GVSM ตรงข้าม GVSM
TVSM ระบุคุณสมบัติเหมาะเท่าของระยะมุม
(refer section 2.4) ดังนั้น TVSM ช่วยเพิ่มเติม
ความยืดหยุ่นเกี่ยวกับคำนวณระยะมุม Termangles
สามารถคำนวณได้โดยใช้วิธีทางสถิติ
เช่นเหตุการณ์ร่วมหรือความสัมพันธ์ (อ้างอิงส่วน 2.5) .
เพิ่มเติม TVSM ให้หักมุมระยะ
จากรายละเอียดที่ชัดเจนเกี่ยวกับศักยภาพทางตรรกของ
คำ (e. กรัมจากเครือข่ายทางตรรกหรือภววิทยา) .
5 บทสรุป
เอกสารนี้นำเสนอวิธีใหม่ (TVSM)
เปรียบเทียบเอกสารเกี่ยวกับเนื้อหา นี้
วิธีมีข้อดีดังต่อไปนี้: จาก
ทฤษฎีมอง TVSM เป็นวิธีการเปิด
สามารถรวมหลายภาษา
ประมวลผลอัลกอริทึมเป็นรายการ stopword ประเทศ และ
อรรถาภิธานเป็นรูปแบบหนึ่ง นี้อำนวยความสะดวกโอกาส
ของการสำรวจความสัมพันธ์ระหว่างอัลกอริทึมเหล่านี้
และมีศักยภาพเพื่อเพิ่มประสิทธิภาพภาษา
ประมวลผลแบบจำลองในทั่วไป
จากปฏิบัติมอง TVSM ช่วยให้
ทำคำนวณเอกสารความเหมือนภายในเป็น
-ฐานข้อมูลเชิงสัมพันธ์ โดยใช้ SQL ธรรมดา เชื่อถือได้ดังนั้น
การประมวลผลข้อมูลขนาดใหญ่ได้รับการสนับสนุนโดย
เพิ่มประสิทธิภาพของฐานข้อมูลรวมอัลกอริทึมสำหรับการเข้าถึง
และการประมวลผลข้อมูล

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การแสดง
เราใช้ tvsm บน postgresql5
7.2 รุ่นฐานข้อมูลเชิงสัมพันธ์ . เพื่อประสิทธิภาพที่ดีขึ้น , รายการเฉพาะ
ด้วยสเกลาร์สินค้าขนาดใหญ่กว่า scalarthreshold
0.5 จะถูกเก็บไว้ใน " ตาราง scalarproduct " (
เทียบเท่ากับผลิตภัณฑ์ชุดสเกลาร์ทั้งหมดน้อยกว่า
สเกลาร์เกณฑ์ค่าศูนย์ ) สำหรับการทดสอบของเรา เราใช้

heise-ticker6 เอกสารข่าว 7184 จากเยอรมันเว็บไซต์ 96887 ข้อตกลงได้ถูกสกัดจากเอกสารเหล่านี้
และถูกเก็บไว้ใน " เงื่อนไข " ตาราง จากข้อมูลพื้นฐานระยะและน้ำหนัก
-
ได้มุมได้ตามที่อธิบายไว้แล้วในส่วน 2.5 ( มีข้อ จำกัด ของเกณฑ์
สเกลาร์ ) ตาราง scalarproduct "
ที่มีอยู่ 97509 รายการ การคำนวณความคล้าย
ระหว่างเอกสารทั่วไป ( มี 164 เงื่อนไขที่ต่างกัน )
และ 7184 เอกสาร ( รวมทั้งกลับสั่ง
ความเหมือน ) ต้องการประมาณ 5 วินาทีบนพีซีทั่วไปของเรา
( Athlon XP 1600 ประมวลผลกับ 768 เมกะไบต์
RAM และ FreeBSD ระบบปฏิบัติการ ) การทดสอบการปฏิบัติ
ครั้งแรกพบว่าคํานวณความเร็วสูง ขึ้นอยู่กับจำนวนของรายการในโต๊ะ

" scalarpoduct " และว่ามันมากน้อยเพียงแต่ขึ้นอยู่กับจำนวนของข้อตกลงหรือ
เอกสารหมายถึง เกณฑ์ดี
สเกลาร์คือตัวแปรเพื่อปรับความเร็วในการคำนวณเมื่อเทียบกับคุณภาพของการคำนวณความคล้าย
.
4 การเปรียบเทียบกับเวกเตอร์อื่น ๆตามแนว

ทั้งในปริภูมิเวกเตอร์แบบ ( vsm Salton 1968 ) [ ;
baezea เยตส์ 1999 , pp . 20 ] และ tvsm กำหนด
เอกสารเวกเตอร์เอกสารแต่ละ ในทางตรงกันข้ามกับ
tvsm ที่ vsm ถือว่าเงื่อนไขทั้งหมดเป็นอิสระ
( Orthogonal ) กับแต่ละอื่น ๆ นี้นำไปสู่ประสิทธิภาพค่อนข้างสูง

สมมติฐานของข้อตกลงซึ่งจะไม่ถูกต้องเกี่ยวกับภาษา ซึ่งสาเหตุธรรมชาติ

ปัญหากับคำพ้องความหมาย หรือแรงที่เกี่ยวข้องกับเงื่อนไข เพื่อที่จะลดปัญหาเหล่านี้

ข้อความที่มักจะผ่านทางรายการ stopword ที่เกิด - และ thesaurusalgorithms
ก่อนที่จะส่งต่อไปยัง vsm . นี้
abrogates สมมติฐานของระยะอิสระเฉพาะใน
ส่วน เพราะสองแง่ ก็ถือว่าเป็น
เทียบเท่าหรือไม่เทียบเท่า ระดับความเหมือนระหว่าง
extremes สองเหล่านี้ก็เกิดขึ้นไม่ได้ จากจุดของมุมมองทางทฤษฎี
tvsm ได้ประโยชน์ไม่
สมมติว่าความเป็นอิสระสำหรับเงื่อนไขที่ช่วยให้การบูรณาการเต็มรูปแบบของรายการ stopword
,
( และพจนานุกรมในรูปแบบความคล้ายคลึงกันระหว่างเงื่อนไขสามารถค่อยๆ
กำหนดจาก " ไม่เท่ากับ " ( มุม 90 องศาระยะ )
" เทียบเท่า " ( มุม 0 องศาระยะ ) .
แบบทั่วไปในปริภูมิเวกเตอร์แบบ ( gvsm ) [ วง
1987 ; beaza เยตส์ 1999 , pp . 41-44 ] ส่ง documentvector
เอกสารแต่ละไม่มีสมมติฐานของ
เงื่อนไข ) . ในทางตรงกันข้ามกับ tvsm ที่ gvsm
ช่วยให้ไม่มีความยืดหยุ่นในการคำนวณ termangles :
ใน gvsm ระยะมุมที่อยู่บนพื้นฐานของการคิดคำนวณ
ของเงื่อนไข เนื่องจากข้อ จำกัด ของ
ข้อความนี้ต้องก่อนการประมวลผลในวิธีที่คล้ายกัน
ชอบสำหรับ vsm : ข้อความจะถูกส่งผ่าน
รายการ stopword กั้นขั้นตอนวิธีและก่อนที่จะถูกส่งต่อไปยัง gvsm
. ในทางตรงกันข้ามกับ gvsm
tvsm ระบุคุณสมบัติที่เหมาะเฉพาะมุมในระยะ
( หมายถึงส่วน 2.4 )ดังนั้น tvsm ช่วยให้ความยืดหยุ่นมากขึ้น
เกี่ยวกับการคำนวณมุมที่ระยะยาว termangles
สามารถคำนวณโดยใช้วิธีการทางสถิติ เช่น การหรือความสัมพันธ์ ( ดู

ส่วน 2.5 ) เพิ่มเติม tvsm ช่วยให้หักมุมในระยะ
จากชัดเจนข้อมูลเกี่ยวกับเรื่องความหมายของ
คำ ( เช่น จากเครือข่ายร่วมกันหรือภววิทยา ) .
5 สรุป
บทความนี้นำเสนอวิธีการใหม่ ( tvsm )
เปรียบเทียบเอกสารเกี่ยวกับเนื้อหาของพวกเขา วิธีการนี้
มีข้อดีดังต่อไปนี้ : จากทฤษฎี
จุดของมุมมอง , tvsm เป็นวิธีการแบบเปิดซึ่งจะช่วยให้การบูรณาการ

ขั้นตอนวิธีการประมวลผลภาษาธรรมชาติหลายรายการ stopword ที่เกิดและ
พจนานุกรมในรูปแบบหนึ่ง นี่ทำให้ความเป็นไปได้
จากการสำรวจของการอ้างอิงระหว่างขั้นตอนวิธีการเหล่านี้มีศักยภาพที่จะเพิ่มประสิทธิภาพและ

รูปแบบการประมวลผลภาษาธรรมชาติทั่วไป .
จากจุดปฏิบัติของมุมมอง , tvsm ช่วย
การคำนวณสมบูรณ์ของความคล้ายคลึงกันเอกสารภายใน
ฐานข้อมูลโดยใช้ SQL ธรรมดา ดังนั้นความน่าเชื่อถือ
การประมวลผลของจำนวนมากข้อมูลที่ได้รับการสนับสนุนโดยใช้
ขั้นตอนวิธีการเพิ่มประสิทธิภาพสำหรับการเข้าถึงฐานข้อมูลรวม
และการประมวลผลข้อมูล

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.