Performance
We implemented the TVSM on a PostgreSQL5 version
7.2 relational database. For a better performance, only
entries with a scalar-product larger than the scalarthreshold
0.5 are stored in the “scalarproduct” table (this
is equivalent to set all scalar-products lesser than the
scalar-threshold to value zero). For our tests, we used
7184 news documents from the German Heise-Ticker6
Website. 96887 terms have been extracted from these
documents and have been stored in the “term” table. From
this data-basis term-weights and -angles have been
derived as already described in section 2.5 (with the
restriction of the scalar-threshold). Table “scalarproduct”
contained 97509 entries. The calculation of the similarity
between a general document (having 164 different terms)
and all 7184 documents (including reverse ordering by
similarity) needed approximately five seconds on our
generic PC (Athlon XP 1600+ processor with 768 MByte
Ram and FreeBSD operating system). First performance
tests showed that the calculation speed highly depends on
the number of entries in table “scalarpoduct” and that it
only depends very low on the number of terms or
documents. This means the scalar-threshold is a good
variable to adjust the calculation speed versus the quality
of similarity-calculation.
4. Comparison with other vector-based
approaches
Both, the Vector Space Model (VSM) [Salton 1968;
Baezea-Yates 1999, pp. 27-30] and the TVSM assign a
document-vector to each document. In contrast to the
TVSM the VSM assumes that all terms are independent
(orthogonal) to each other. This leads to a relatively high
performance. The assumption of orthogonal terms is
incorrect regarding natural languages which causes
problems with synonyms or strong related terms. In order
to reduce these problems messages are usually passed
through a stopword-list, stemming- and thesaurusalgorithms
before they are forwarded to the VSM. This
abrogates the assumption of term independence only in
parts, because two terms can simply be treated as
equivalent or as not equivalent. Similarity levels between
these two extremes are not possible. From the theoretical
point of view the TVSM has the advantage of not
assuming independence for terms which allows a full
integration of stopword-list, stemming and thesaurus into
the model. Similarity between terms can be gradually
defined from “not equivalent” (term-angle: 90°) to
“equivalent” (term-angle: 0°).
The Generalized Vector Space Model (GVSM) [Wong
1987; Beaza-Yates 1999, pp. 41-44] assigns a documentvector
to each document without the assumption of
orthogonal terms. In contrast to the TVSM the GVSM
allows no flexibility regarding the computation of termangles:
in the GVSM term-angles are based on the computation
of co-occurrence of terms. Because of this limitation
messages have to be pre-processed in a similar way
like for the VSM: Messages are passed through a
stopword-list and stemming-algorithms before they are
forwarded to the GVSM. In contrast to the GVSM the
TVSM specifies only ideal properties of term-angles
(refer section 2.4). Therefore the TVSM allows more
flexibility regarding the calculation of term-angles. Termangles
can be computed using different statistical methods
like co-occurrence or correlation (refer section 2.5).
Further the TVSM allows the deduction of term-angles
from explicit information about the semantic coherence of
words (e. g. from semantic networks or ontology).
5. Conclusion
This paper presents a new approach (TVSM) to
compare documents regarding their content. This
approach has the following advantages: From the
theoretical point of view, the TVSM is an open approach
which enables the integration of several natural language
processing algorithms as stopword-list, stemming and
thesaurus into one model. This facilitates the possibility
of exploration of dependencies between these algorithms
and provides a potential to optimize natural language
processing models in general.
From the practical point of view, the TVSM enables
complete calculation of document-similarities within a
relational-database by using plain SQL. Therefore reliable
processing of huge amounts of data is supported by using
database-integrated optimization algorithms for accessing
and processing the data.
Performance
We implemented the TVSM on a PostgreSQL5 version
7.2 relational database. For a better performance, only
entries with a scalar-product larger than the scalarthreshold
0.5 are stored in the “scalarproduct” table (this
is equivalent to set all scalar-products lesser than the
scalar-threshold to value zero). For our tests, we used
7184 news documents from the German Heise-Ticker6
Website. 96887 terms have been extracted from these
documents and have been stored in the “term” table. From
this data-basis term-weights and -angles have been
derived as already described in section 2.5 (with the
restriction of the scalar-threshold). Table “scalarproduct”
contained 97509 entries. The calculation of the similarity
between a general document (having 164 different terms)
and all 7184 documents (including reverse ordering by
similarity) needed approximately five seconds on our
generic PC (Athlon XP 1600+ processor with 768 MByte
Ram and FreeBSD operating system). First performance
tests showed that the calculation speed highly depends on
the number of entries in table “scalarpoduct” and that it
only depends very low on the number of terms or
documents. This means the scalar-threshold is a good
variable to adjust the calculation speed versus the quality
of similarity-calculation.
4. Comparison with other vector-based
approaches
Both, the Vector Space Model (VSM) [Salton 1968;
Baezea-Yates 1999, pp. 27-30] and the TVSM assign a
document-vector to each document. In contrast to the
TVSM the VSM assumes that all terms are independent
(orthogonal) to each other. This leads to a relatively high
performance. The assumption of orthogonal terms is
incorrect regarding natural languages which causes
problems with synonyms or strong related terms. In order
to reduce these problems messages are usually passed
through a stopword-list, stemming- and thesaurusalgorithms
before they are forwarded to the VSM. This
abrogates the assumption of term independence only in
parts, because two terms can simply be treated as
equivalent or as not equivalent. Similarity levels between
these two extremes are not possible. From the theoretical
point of view the TVSM has the advantage of not
assuming independence for terms which allows a full
integration of stopword-list, stemming and thesaurus into
the model. Similarity between terms can be gradually
defined from “not equivalent” (term-angle: 90°) to
“equivalent” (term-angle: 0°).
The Generalized Vector Space Model (GVSM) [Wong
1987; Beaza-Yates 1999, pp. 41-44] assigns a documentvector
to each document without the assumption of
orthogonal terms. In contrast to the TVSM the GVSM
allows no flexibility regarding the computation of termangles:
in the GVSM term-angles are based on the computation
of co-occurrence of terms. Because of this limitation
messages have to be pre-processed in a similar way
like for the VSM: Messages are passed through a
stopword-list and stemming-algorithms before they are
forwarded to the GVSM. In contrast to the GVSM the
TVSM specifies only ideal properties of term-angles
(refer section 2.4). Therefore the TVSM allows more
flexibility regarding the calculation of term-angles. Termangles
can be computed using different statistical methods
like co-occurrence or correlation (refer section 2.5).
Further the TVSM allows the deduction of term-angles
from explicit information about the semantic coherence of
words (e. g. from semantic networks or ontology).
5. Conclusion
This paper presents a new approach (TVSM) to
compare documents regarding their content. This
approach has the following advantages: From the
theoretical point of view, the TVSM is an open approach
which enables the integration of several natural language
processing algorithms as stopword-list, stemming and
thesaurus into one model. This facilitates the possibility
of exploration of dependencies between these algorithms
and provides a potential to optimize natural language
processing models in general.
From the practical point of view, the TVSM enables
complete calculation of document-similarities within a
relational-database by using plain SQL. Therefore reliable
processing of huge amounts of data is supported by using
database-integrated optimization algorithms for accessing
and processing the data.
การแปล กรุณารอสักครู่..

การแสดง
เราใช้ tvsm บน postgresql5
7.2 รุ่นฐานข้อมูลเชิงสัมพันธ์ . เพื่อประสิทธิภาพที่ดีขึ้น , รายการเฉพาะ
ด้วยสเกลาร์สินค้าขนาดใหญ่กว่า scalarthreshold
0.5 จะถูกเก็บไว้ใน " ตาราง scalarproduct " (
เทียบเท่ากับผลิตภัณฑ์ชุดสเกลาร์ทั้งหมดน้อยกว่า
สเกลาร์เกณฑ์ค่าศูนย์ ) สำหรับการทดสอบของเรา เราใช้
heise-ticker6 เอกสารข่าว 7184 จากเยอรมันเว็บไซต์ 96887 ข้อตกลงได้ถูกสกัดจากเอกสารเหล่านี้
และถูกเก็บไว้ใน " เงื่อนไข " ตาราง จากข้อมูลพื้นฐานระยะและน้ำหนัก
-
ได้มุมได้ตามที่อธิบายไว้แล้วในส่วน 2.5 ( มีข้อ จำกัด ของเกณฑ์
สเกลาร์ ) ตาราง scalarproduct "
ที่มีอยู่ 97509 รายการ การคำนวณความคล้าย
ระหว่างเอกสารทั่วไป ( มี 164 เงื่อนไขที่ต่างกัน )
และ 7184 เอกสาร ( รวมทั้งกลับสั่ง
ความเหมือน ) ต้องการประมาณ 5 วินาทีบนพีซีทั่วไปของเรา
( Athlon XP 1600 ประมวลผลกับ 768 เมกะไบต์
RAM และ FreeBSD ระบบปฏิบัติการ ) การทดสอบการปฏิบัติ
ครั้งแรกพบว่าคํานวณความเร็วสูง ขึ้นอยู่กับจำนวนของรายการในโต๊ะ
" scalarpoduct " และว่ามันมากน้อยเพียงแต่ขึ้นอยู่กับจำนวนของข้อตกลงหรือ
เอกสารหมายถึง เกณฑ์ดี
สเกลาร์คือตัวแปรเพื่อปรับความเร็วในการคำนวณเมื่อเทียบกับคุณภาพของการคำนวณความคล้าย
.
4 การเปรียบเทียบกับเวกเตอร์อื่น ๆตามแนว
ทั้งในปริภูมิเวกเตอร์แบบ ( vsm Salton 1968 ) [ ;
baezea เยตส์ 1999 , pp . 20 ] และ tvsm กำหนด
เอกสารเวกเตอร์เอกสารแต่ละ ในทางตรงกันข้ามกับ
tvsm ที่ vsm ถือว่าเงื่อนไขทั้งหมดเป็นอิสระ
( Orthogonal ) กับแต่ละอื่น ๆ นี้นำไปสู่ประสิทธิภาพค่อนข้างสูง
สมมติฐานของข้อตกลงซึ่งจะไม่ถูกต้องเกี่ยวกับภาษา ซึ่งสาเหตุธรรมชาติ
ปัญหากับคำพ้องความหมาย หรือแรงที่เกี่ยวข้องกับเงื่อนไข เพื่อที่จะลดปัญหาเหล่านี้
ข้อความที่มักจะผ่านทางรายการ stopword ที่เกิด - และ thesaurusalgorithms
ก่อนที่จะส่งต่อไปยัง vsm . นี้
abrogates สมมติฐานของระยะอิสระเฉพาะใน
ส่วน เพราะสองแง่ ก็ถือว่าเป็น
เทียบเท่าหรือไม่เทียบเท่า ระดับความเหมือนระหว่าง
extremes สองเหล่านี้ก็เกิดขึ้นไม่ได้ จากจุดของมุมมองทางทฤษฎี
tvsm ได้ประโยชน์ไม่
สมมติว่าความเป็นอิสระสำหรับเงื่อนไขที่ช่วยให้การบูรณาการเต็มรูปแบบของรายการ stopword
,
( และพจนานุกรมในรูปแบบความคล้ายคลึงกันระหว่างเงื่อนไขสามารถค่อยๆ
กำหนดจาก " ไม่เท่ากับ " ( มุม 90 องศาระยะ )
" เทียบเท่า " ( มุม 0 องศาระยะ ) .
แบบทั่วไปในปริภูมิเวกเตอร์แบบ ( gvsm ) [ วง
1987 ; beaza เยตส์ 1999 , pp . 41-44 ] ส่ง documentvector
เอกสารแต่ละไม่มีสมมติฐานของ
เงื่อนไข ) . ในทางตรงกันข้ามกับ tvsm ที่ gvsm
ช่วยให้ไม่มีความยืดหยุ่นในการคำนวณ termangles :
ใน gvsm ระยะมุมที่อยู่บนพื้นฐานของการคิดคำนวณ
ของเงื่อนไข เนื่องจากข้อ จำกัด ของ
ข้อความนี้ต้องก่อนการประมวลผลในวิธีที่คล้ายกัน
ชอบสำหรับ vsm : ข้อความจะถูกส่งผ่าน
รายการ stopword กั้นขั้นตอนวิธีและก่อนที่จะถูกส่งต่อไปยัง gvsm
. ในทางตรงกันข้ามกับ gvsm
tvsm ระบุคุณสมบัติที่เหมาะเฉพาะมุมในระยะ
( หมายถึงส่วน 2.4 )ดังนั้น tvsm ช่วยให้ความยืดหยุ่นมากขึ้น
เกี่ยวกับการคำนวณมุมที่ระยะยาว termangles
สามารถคำนวณโดยใช้วิธีการทางสถิติ เช่น การหรือความสัมพันธ์ ( ดู
ส่วน 2.5 ) เพิ่มเติม tvsm ช่วยให้หักมุมในระยะ
จากชัดเจนข้อมูลเกี่ยวกับเรื่องความหมายของ
คำ ( เช่น จากเครือข่ายร่วมกันหรือภววิทยา ) .
5 สรุป
บทความนี้นำเสนอวิธีการใหม่ ( tvsm )
เปรียบเทียบเอกสารเกี่ยวกับเนื้อหาของพวกเขา วิธีการนี้
มีข้อดีดังต่อไปนี้ : จากทฤษฎี
จุดของมุมมอง , tvsm เป็นวิธีการแบบเปิดซึ่งจะช่วยให้การบูรณาการ
ขั้นตอนวิธีการประมวลผลภาษาธรรมชาติหลายรายการ stopword ที่เกิดและ
พจนานุกรมในรูปแบบหนึ่ง นี่ทำให้ความเป็นไปได้
จากการสำรวจของการอ้างอิงระหว่างขั้นตอนวิธีการเหล่านี้มีศักยภาพที่จะเพิ่มประสิทธิภาพและ
รูปแบบการประมวลผลภาษาธรรมชาติทั่วไป .
จากจุดปฏิบัติของมุมมอง , tvsm ช่วย
การคำนวณสมบูรณ์ของความคล้ายคลึงกันเอกสารภายใน
ฐานข้อมูลโดยใช้ SQL ธรรมดา ดังนั้นความน่าเชื่อถือ
การประมวลผลของจำนวนมากข้อมูลที่ได้รับการสนับสนุนโดยใช้
ขั้นตอนวิธีการเพิ่มประสิทธิภาพสำหรับการเข้าถึงฐานข้อมูลรวม
และการประมวลผลข้อมูล
การแปล กรุณารอสักครู่..
