1. MotivationInformation filtering

1. Motivation
Information filtering (IF) systems are designed for
permanently scanning document streams (e. g. newsticker
or Usenet). They identify potentially important or
interesting documents for users by classifying them. For
designers of IF systems the conceptualization of user
profiles is a great challenge. For each user a profile has to
be defined. This profile determines criteria which are
utilized for user-specific classification of documents.
One approach (the explication approach) is the
definition of a formalized language which is utilized by
the user to describe his profile. This approach has been
implemented in the IF prototypes Rama [Binkley 1991],
Borges V2 [Smeaton 1996] and Sift [Yan 2000]. The
main problem with this approach is that users are often
not capable of specifying their information demand
properly. There are two main reasons for this: Firstly, it is
difficult for a user to explicate required criteria. Secondly,
the formalized language has to be powerful enough to
deal with the challenges of natural language processing
like flexions of words1, synonyms2 and polysems3. Addi-tionally, it should be powerful enough to allow complex
expressions (e. g. using Boolean operators like “or”,
“and”, “not”, etc.). On the one hand this leads to a huge
amount of time the user needs to master the language in
case it is very powerful. On the other hand the filtering
results of the IF system will be deficient if the language is
easy to use but not powerful enough.
One solution of this dilemma is the use of an adaptive
approach. The idea is to present some evaluated
documents to the IF system and to let it generate the user
profile on its own. As a side-effect the system can
improve the user profile continuously if the user himself
gives a feedback on misclassified documents. This
approach has already been implemented in NewsSIEVE
[Haneke 2001] and PI-Agent [Kuropka 2001] systems.
NewsSIEVE adapts the user profile by using evolutionary
algorithms while the PI-Agent uses neuronal networks.
Both approaches have in common that the initial
information about user profiles (= training set) are
transformed into an internal representation (e. g. neuron
weights in case of a neuronal network) which makes the
profile representation difficult to understand for users. So
the system is not able to explicate its classification rules
in a user-friendly way. This leads to the following
problems: Firstly, the user has to rely on the classification
given by the IF system without knowing how the
classification is done in detail. Secondly, in case the
user’s information demand shifts from one day to another
or the system is unable to adapt his information demand,
it is impossible for him to make reasonable corrections on
his profile. Consequently, the user has to wait until the
system has corrected his profile automatically.
Meanwhile, a lot of documents may be misclassified.
Our intention is the use of a case-based approach for
defining user profiles. This means, the user defines his
profile by presenting some evaluated documents to the
system, like in the adaptive approach. In contrast to the
adaptive approach this initial profile information is not
transformed into some kind of internal representation.
New documents are classified by adopting the classification
of the most similar documents from the user
profile. A simple adoption of user profiles can be
implemented this way: Every time the system has misclassified
a document, user corrected evaluations of
documents are added to the profile. The benefit of this
approach is the possibility to understand the profile,
because it is just an set of evaluated documents. By
removing evaluated documents or by inserting new
evaluated documents reasonable corrections on the profile
are possible. The following aspects should be considered
when implementing case-based approaches:
a) Document similarity: A similarity function is
necessary to determine the similarities between old
and new cases. The “cases” here are documents.
Therefore, some kind of document similarity function
is needed. This function will be derivated from a
theoretical foundation which is presented in section 2
in detail.
b) Document classification: For document classification
we propose the use of k-Nearest Neighbour classification
(kNN). This is a simple method. If you insert a
test document into the system, the system finds the k
nearest neighbours among the profile documents. It
uses the categories of the k neighbours to weight the
category of the test document. Referring to the
examination of YANG and LIU, the kNN (using the
cosine similarity on document vectors) is one of the
best methods for text categorization [Yang 1999]. This
paper describes our work which is still in progress. At
present, we do not have enough qualified data to run
optimizations on parameters of the kNN. Thus, the
kNN is future work and will not be discussed in this
paper in more detail.
c) Efficient processing of huge amounts of persistent
data: The IF system should work reliable for several
news sources as well as for a large amount of users.
Further requirements are: Every user should have an
own profile which supports several classification
schemes (e. g. classification by importance or by
topic). Reliability determines persistency of data. The
other requirements entail the possibility of storing and
processing a huge amount of data (documents, user
profiles, natural language depending data and administrative
data). Databases are optimized for processing
huge amounts of data and they can be used
effectively if the main part of data is processed within
the database. Section 3 will show how the document
similarity function can be fully implemented within
the context of a relational database using the
Structured Query Language (SQL) [ISO 1992].
d) Optimized adoption of user profiles: The simple
adoption method described above adds all documents
(and their affiliation to a class) to the user profile,
which have been misclassified by the system. On the
long run this leads to two problems: Firstly, the user
profile extends without any limit. This reduces the
classification performance. Secondly, the system is
not able to “forget” anything adopted. This makes an
adoption of changes of user’s information demand
impossible. Therefore, it is necessary to develop some
kind of reorganisation and garbage collection
methods. Qualified data is advantageous for the
development of an optimized adoption method. This
point belongs to future work and will not be discussed
in this paper in more detail.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

1. แรงจูงใจ
ข้อมูลกรอง (ถ้า) ระบบถูกออกแบบมาสำหรับ
สแกนเอกสารกระแสข้อมูลอย่างถาวร (e. g. newsticker
หรือ usenet บน) พวกเขาระบุอาจสำคัญ หรือ
เอกสารสำหรับผู้ใช้ที่น่าสนใจ โดยการจัดประเภทการ สำหรับ
ออกแบบระบบถ้า conceptualization ผู้
โพรไฟล์เป็นสิ่งที่ท้าทายมากขึ้น สำหรับผู้ใช้แต่ละ โพรไฟล์ได้
กำหนด ส่วนกำหนดค่านี้กำหนดเกณฑ์ที่
ใช้สำหรับผู้ใช้เฉพาะประเภทของเอกสาร
วิธีหนึ่ง (วิธี explication) เป็นการ
นิยามของภาษาอย่างเป็นทางการที่ใช้โดย
ผู้อธิบายประวัติของเขา วิธีการนี้ได้
ในแบบตัวอย่างถ้าพระราม [Binkley 1991],
Borges V2 [Smeaton 1996] Sift [ย่าน 2000] และ ใน
ปัญหาหลัก ด้วยวิธีนี้คือผู้ใช้มัก
ไม่สามารถระบุความต้องการข้อมูล
ถูกต้อง มีเหตุผลหลักสองประการนี้: ประการแรก มันเป็น
ยากที่ผู้ใช้เกณฑ์ต้อง explicate ประการที่สอง,
ภาษาอย่างเป็นทางการยังต้องมีประสิทธิภาพพอที่จะ
กับความท้าทายของการประมวลผลภาษาธรรมชาติ
เช่น flexions words1, synonyms2 และ polysems3 Addi-tionally มันควรจะมีประสิทธิภาพเพียงพอให้ซับซ้อน
นิพจน์ (e. กรัมใช้ตัวดำเนินการแบบบูลีนเช่น "หรือ",
"และ" "ไม่" ฯลฯ .) คง นี้นำไปสู่มาก
จำนวนเวลาที่ผู้ใช้ต้องหลักภาษาใน
กรณีจึงมีประสิทธิภาพมากขึ้น ในอื่น ๆ มือกรอง
ผลลัพธ์ของระบบว่าจะขาดสารเป็น
ง่ายต่อการใช้ แต่ไม่มีประสิทธิภาพพอ
วิธีการแก้ไขปัญหาของความลำบากใจนี้คือ การใช้ของการปรับ
วิธีการ ความคิดที่จะนำเสนอบางประเมิน
เอกสารถ้าระบบ และปล่อยให้มันสร้างผู้ใช้
โปรไฟล์ของตนเอง เป็นผลข้างเคียง สามารถระบบ
ปรับปรุงส่วนกำหนดค่าผู้ใช้อย่างต่อเนื่องถ้าผู้ใช้เอง
ให้คำติชมเกี่ยวกับงานเอกสารได้ นี้
มีวิธีนำมาใช้การ NewsSIEVE
[Haneke 2001] ระบบ PI แทน [Kuropka 2001] ได้
NewsSIEVE ปรับโปรไฟล์ผู้ใช้ โดยใช้วิวัฒนาการ
อัลกอริทึมในขณะใช้ PI-ตัวแทนเครือข่าย neuronal
วิธีทั้งสองมีกันที่ต้น
มีข้อมูลเกี่ยวกับโพรไฟล์ผู้ใช้ (=ชุดฝึกอบรม)
เปลี่ยนเป็นการแสดงภายใน (e. กรัมเซลล์ประสาท
น้ำหนักในกรณีที่เครือข่าย neuronal) ซึ่งทำให้การ
แสดงส่วนกำหนดค่าที่ยากต่อการเข้าใจสำหรับผู้ใช้ ดังนั้น
ระบบจะไม่สามารถ explicate กฎการจัดประเภทของ
แบบง่าย นี้เป้าหมายต่อไป
ปัญหา: ประการแรก ผู้ใช้มีการพึ่งพาการจัดประเภท
รับระบบถ้าไม่รู้วิธี
จัดประเภทจะกระทำในรายละเอียด ประการที่สอง ในกรณี
ความต้องการข้อมูลของผู้ใช้เลื่อนจากวันหนึ่งไปยังอีก
หรือระบบไม่สามารถปรับความต้องการข้อมูลของเขา,
มันเป็นไปไม่ได้สำหรับเขาที่จะทำการแก้ไขที่เหมาะสมบน
โพรไฟล์ของเขา ดังนั้น ผู้ใช้มีการรอจนถึง
ระบบได้แก้ไขส่วนกำหนดค่าของเขาโดยอัตโนมัติ.
ในขณะเดียวกัน อาจ misclassified ของเอกสาร.
ตั้งใจจะใช้วิธีการตามกรณีสำหรับ
กำหนดโพรไฟล์ผู้ใช้ได้ ซึ่งหมายความว่า ผู้ใช้กำหนดเขา
โพรไฟล์ โดยการนำเสนอบางประเมินเอกสาร
ระบบ ชอบในวิธีเหมาะสม ในทางตรงกันข้ามกับ
วิธีปรับข้อมูลส่วนกำหนดค่าเริ่มต้นนี้ไม่
เปลี่ยนเป็นสิ่งของภายในแสดง
ประเภทเอกสารใหม่ โดยใช้การจัดประเภท
เอกสารคล้ายกันมากที่สุดจากผู้ใช้
โพรไฟล์ ยอมรับเรื่องของโพรไฟล์ผู้ใช้ได้
ใช้วิธีนี้: ทุกครั้งที่ระบบมีงาน
เอกสาร ผู้ใช้แก้ไขการประเมินของ
เพิ่มในส่วนกำหนดค่าเอกสาร ประโยชน์นี้
วิธีคือ ความสามารถในการเข้าใจโพ,
เนื่องจากเป็นเพียงการตั้งค่าเอกสาร โดย
เอาเอกสารค่า หรือโดยการแทรกใหม่
ประเมินเอกสารแก้ไขเหมาะสมบนโพรไฟล์
เป็นไปได้ ควรพิจารณาด้านต่อไปนี้
นำวิธีใช้กรณี:
แบบ) เอกสารคล้าย: ฟังก์ชันคล้าย
จำเป็นเพื่อตรวจสอบความคล้ายคลึงระหว่างเก่า
และกรณีใหม่ "กรณี" นี่เป็นเอกสาร.
เหตุ ชนิดของฟังก์ชันคล้ายเอกสารบาง
จำ ฟังก์ชันนี้จะ derivated จากการ
ทฤษฎีพื้นฐานที่นำเสนอในส่วนของ 2
ในรายละเอียด
b) เอกสารการจัดประเภท: การจัดเอกสาร
เราเสนอใช้ k ใกล้ classification
(kNN) เพื่อนบ้าน นี้เป็นวิธีที่ง่าย ถ้าคุณแทรกการ
เอกสารทดสอบเข้าสู่ระบบ ระบบค้นหา k
ใกล้เพื่อนส่วนกำหนดค่าเอกสาร มัน
ใช้ประเภทของเพื่อน k น้ำหนัก
หมวดหมู่ของเอกสารทดสอบ อ้างถึงใน
ตรวจสอบยางและหลิว kNN (ใช้การ
คล้ายโคไซน์ในเวกเตอร์เอกสาร) เป็นหนึ่ง
วิธีการสำหรับการจัดประเภทข้อความ [Yang 1999] ที่ดีที่สุด นี้
กระดาษอธิบายงานของเราซึ่งอยู่ในระหว่างดำเนินการ ที่
อยู่ เราไม่มีข้อมูลเพียงพอเหมาะสมเพื่อรัน
เพิ่มประสิทธิภาพบนพารามิเตอร์ของ kNN ดังนั้น
kNN งานในอนาคต และจะไม่กล่าวถึงในนี้
กระดาษในรายละเอียดเพิ่มเติม
c) มีการประมวลผลของจำนวนมากของแบบ
ข้อมูล: ในกรณีระบบควรทำงานเชื่อถือได้หลาย
แหล่งข่าวเช่นกับจำนวนมากของผู้ใช้
มีความต้องการต่อ: ผู้ใช้ทุกคนควรมีการ
เจ้าของโพรไฟล์ซึ่งสนับสนุนหลายประเภท
โครงร่าง (e. กรัมประเภทความสำคัญ หรือโดย
หัวข้อ) ความน่าเชื่อถือกำหนด persistency ของข้อมูล ใน
ข้อกำหนดอื่น ๆ อันสามารถเก็บ และ
ประมวลผลเป็นจำนวนมากของข้อมูล (เอกสาร ผู้ใช้
โปรไฟล์ ภาษาขึ้นต่อข้อมูล และบริหาร
ข้อมูล) ฐานข้อมูลนี้เหมาะสำหรับการประมวลผล
จำนวนมากของข้อมูล และสามารถใช้
ได้อย่างมีประสิทธิภาพถ้ามีการประมวลผลข้อมูลส่วนสำคัญภายใน
ฐานข้อมูล หมวดที่ 3 จะแสดงว่าเอกสาร
คล้ายฟังก์ชันสามารถทั้งหมดดำเนินการภายใน
บริบทของฐานข้อมูลเชิงสัมพันธ์โดยใช้การ
โครงสร้างแบบสอบถามภาษา (SQL) [ISO 1992] ได้
d) เพิ่มประสิทธิภาพของโพรไฟล์ผู้ใช้: นำ
วิธียอมรับข้างเพิ่มเอกสารทั้งหมด
(และสังกัดของตนไปยังคลา) โปรไฟล์ผู้ใช้,
ซึ่งได้รับงานระบบได้ ในการ
ยาวนี้นำไปสู่ปัญหาที่สอง: ประการแรก ผู้ใช้
โพรไฟล์ขยาย โดยไม่มีขีดจำกัดใด ๆ นี้ลดการ
ประสิทธิภาพจัดประเภท ประการที่สอง เป็นระบบ
ไม่สามารถ "ลืม" สิ่งที่นำมาใช้ ทำการ
ยอมรับการเปลี่ยนแปลงของความต้องการข้อมูลของผู้ใช้
ไม่ ดังนั้น จึงจำเป็นต้องพัฒนาบาง
ชนิดของคอลเลกชัน reorganisation และขยะ
วิธีการ ข้อมูลมีคุณสมบัติเป็นข้อได้เปรียบสำหรับการ
การพัฒนาวิธีการยอมรับให้เหมาะ นี้
จุดการทำงานในอนาคต และจะไม่ได้กล่าวถึง
ในเอกสารนี้ในรายละเอียดเพิ่มเติม

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

1 แรงจูงใจใน
การกรองข้อมูล (IF) ระบบถูกออกแบบมาสำหรับ
การสแกนอย่างถาวรลำธารเอกสาร (เช่น NewsTicker
หรือ Usenet) พวกเขาระบุอาจสำคัญหรือ
เอกสารที่น่าสนใจสำหรับผู้ใช้โดยการแบ่งประเภทของพวกเขา สำหรับ
นักออกแบบของระบบถ้าแนวความคิดของผู้ใช้
โปรไฟล์ที่เป็นความท้าทายที่ยิ่งใหญ่ สำหรับผู้ใช้แต่ละรายละเอียดที่มีการ
กำหนด รายละเอียดนี้จะกำหนดเกณฑ์ที่
ใช้ในการจัดหมวดหมู่การใช้งานที่เฉพาะเจาะจงของเอกสาร
เป็นวิธีหนึ่ง (วิธีการชี้แจง) คือ
ความหมายของภาษาที่เป็นทางการซึ่งจะถูกใช้โดย
ผู้ใช้เพื่ออธิบายรายละเอียดของเขา วิธีการนี้ได้รับการ
ดำเนินการใน IF ต้นแบบพระราม [Binkley 1991]
Borges V2 [Smeaton 1996] และร่อน [Yan 2000]
ปัญหาหลักด้วยวิธีนี้คือผู้ใช้มักจะ
ไม่ได้มีความสามารถในการระบุความต้องการข้อมูลของพวกเขา
อย่างถูกต้อง มีสองเหตุผลหลักนี้คือประการแรกมันเป็น
เรื่องยากสำหรับผู้ใช้เพื่ออธิบายเกณฑ์ที่จำเป็น ประการที่สอง
ภาษาที่เป็นทางการจะต้องมีประสิทธิภาพเพียงพอที่จะ
จัดการกับความท้าทายของการประมวลผลภาษาธรรมชาติ
เช่น flexions ของ words1 synonyms2 และ polysems3 Addi-เท่าเทียมก็ควรจะมีประสิทธิภาพพอที่จะให้มีความซับซ้อน
การแสดงออก (เช่นใช้ประกอบการบูลีนชอบ "หรือ"
"และ" "ไม่ได้" ฯลฯ ) บนมือข้างหนึ่งนี้นำไปสู่ขนาดใหญ่
จำนวนของเวลาที่ผู้ใช้ต้องการที่จะโทภาษาใน
กรณีที่มันจะมีประสิทธิภาพมาก ในทางตรงกันข้ามการกรอง
ผลลัพธ์ที่ได้จากระบบถ้าจะขาดถ้าภาษาที่
ใช้งานง่าย แต่ไม่ได้มีประสิทธิภาพพอที่จะ
แก้ปัญหาหนึ่งในภาวะที่กลืนไม่เข้าคายไม่ออกนี้คือการใช้การปรับ
วิธีการ ความคิดที่จะนำเสนอการประเมินบาง
เอกสารให้เป็นระบบและถ้าจะให้มันสร้างผู้ใช้
รายละเอียดในตัวของมันเอง เป็นผลข้างเคียงของระบบสามารถ
ปรับปรุงรายละเอียดของผู้ใช้อย่างต่อเนื่องหากผู้ใช้ของตัวเอง
ให้ความคิดเห็นเกี่ยวกับเอกสารที่แบ่ง ซึ่ง
วิธีการที่ได้รับการดำเนินการแล้วใน NewsSIEVE
[Haneke 2001] และ PI-Agent [Kuropka 2001] ระบบ
NewsSIEVE ปรับรายละเอียดของผู้ใช้โดยใช้วิวัฒนาการ
ขั้นตอนวิธีในขณะที่ PI-Agent ใช้เครือข่ายเส้นประสาท
ทั้งสองวิธีได้เหมือนกันว่าเริ่มต้น
ข้อมูลเกี่ยวกับ โปรไฟล์ผู้ใช้ (= ชุดการฝึกอบรม) จะถูก
เปลี่ยนเป็นแสดงภายใน (เช่นเซลล์ประสาท
น้ำหนักในกรณีของเครือข่ายเส้นประสาท) ซึ่งจะทำให้
การแสดงรายละเอียดยากที่จะเข้าใจสำหรับผู้ใช้ ดังนั้น
ระบบไม่สามารถที่จะอธิบายกฎการจัดหมวดหมู่ของตน
ในทางที่ใช้งานง่าย นี้นำไปสู่การต่อไปนี้
ปัญหาประการแรกผู้ใช้มีการพึ่งพาการจัดหมวดหมู่
ที่กำหนดโดยระบบ IF โดยไม่ทราบวิธี
การจัดหมวดหมู่จะทำในรายละเอียด ประการที่สองในกรณีที่
การเปลี่ยนแปลงความต้องการข้อมูลของผู้ใช้จากวันหนึ่งไปยังอีก
หรือระบบไม่สามารถปรับตัวเข้ากับความต้องการข้อมูลของเขา
มันเป็นไปไม่ได้สำหรับเขาที่จะทำให้การแก้ไขที่เหมาะสมใน
โปรไฟล์ของเขา ดังนั้นผู้ใช้จะต้องรอจนกว่าจะ
มีการแก้ไขระบบโปรไฟล์ของเขาโดยอัตโนมัติ
ในขณะที่จำนวนมากของเอกสารที่อาจจะแบ่ง
ความตั้งใจของเราคือการใช้วิธีการกรณีที่ใช้สำหรับการ
กำหนดโปรไฟล์ผู้ใช้ ซึ่งหมายความว่าผู้ใช้กำหนดของเขา
โดยนำเสนอรายละเอียดเอกสารการประเมินผลบางอย่างเพื่อให้
ระบบเช่นในแนวทางการปรับตัว ในทางตรงกันข้ามกับ
วิธีการปรับข้อมูลรายละเอียดครั้งแรกนี้จะไม่
กลายเป็นชนิดของการแสดงภายในบาง
เอกสารใหม่จะถูกจัดโดยการจัดหมวดหมู่
ของเอกสารที่คล้ายกันมากที่สุดจากผู้ใช้
รายละเอียด การนำง่ายของโปรไฟล์ผู้ใช้สามารถ
ดำเนินการด้วยวิธีนี้: เวลาของระบบได้แบ่งทุก
เอกสารการประเมินผลผู้ได้รับการแก้ไขของ
เอกสารที่มีการเพิ่มรายละเอียด ประโยชน์ของการนี้
วิธีการที่เป็นไปได้ที่จะเข้าใจรายละเอียด,
เพราะมันเป็นเพียงชุดของเอกสารการประเมิน โดย
การเอาเอกสารการประเมินหรือโดยการใส่ใหม่
เอกสารการประเมินผลการแก้ไขที่เหมาะสมในรายละเอียด
ที่เป็นไปได้ ด้านต่อไปนี้ควรได้รับการพิจารณา
เมื่อใช้วิธีกรณีตาม:
) ความคล้ายคลึงกันเอกสาร: ฟังก์ชั่นที่คล้ายคลึงกันเป็น
สิ่งที่จำเป็นเพื่อตรวจสอบความคล้ายคลึงกันระหว่างเก่า
และใหม่กรณี "กรณี" นี่เป็นเอกสาร
ดังนั้นชนิดของฟังก์ชั่นที่คล้ายคลึงกันเอกสารบางอย่าง
เป็นสิ่งจำเป็น ฟังก์ชั่นนี้จะถูก derivated จาก
พื้นฐานทางทฤษฎีที่จะนำเสนอในส่วนที่ 2
ในรายละเอียด
ข) การจัดหมวดหมู่เอกสาร: สำหรับการจัดหมวดหมู่เอกสารที่
เรานำเสนอการใช้ k-เพื่อนบ้านที่ใกล้ที่สุดการจัดหมวดหมู่
(KNN) นี้เป็นวิธีการที่ง่าย ถ้าคุณใส่
เอกสารทดสอบเข้าสู่ระบบระบบพบ k
เพื่อนบ้านที่ใกล้ที่สุดในเอกสารรายละเอียด มัน
ใช้หมวดหมู่ของเพื่อนบ้าน k น้ำหนัก
ประเภทของเอกสารการทดสอบ หมายถึง
การตรวจสอบของยางและหลิว, KNN (โดยใช้
ความคล้ายคลึงกันในเวกเตอร์โคไซน์เอกสาร) เป็นหนึ่งใน
วิธีการที่ดีที่สุดสำหรับการจัดหมวดหมู่ข้อความ [ยาง 1999] นี้
กระดาษอธิบายการทำงานของเราที่ยังคงอยู่ในความคืบหน้า ที่
ปัจจุบันเราไม่ได้มีข้อมูลที่มีคุณสมบัติเพียงพอที่จะใช้
ในการเพิ่มประสิทธิภาพพารามิเตอร์ของ KNN ดังนั้น
KNN คือการทำงานในอนาคตและจะไม่ถูกกล่าวถึงในนี้
กระดาษในรายละเอียด
ค) การประมวลผลที่มีประสิทธิภาพของจำนวนมากของถาวร
ข้อมูล: ระบบ IF ควรจะทำงานที่เชื่อถือได้สำหรับหลาย ๆ
แหล่งข่าวเช่นเดียวกับการเป็นจำนวนมากของผู้ใช้
ความต้องการต่อไปคือผู้ใช้ทุกคนควรจะมี
รายละเอียดของตัวเองที่สนับสนุนการจัดหมวดหมู่หลาย
รูปแบบ (เช่นการจัดหมวดหมู่ตามความสำคัญหรือ
หัวข้อ) ความน่าเชื่อถือกำหนด persistency ของข้อมูล
ข้อกำหนดอื่น ๆ นำมาซึ่งความเป็นไปได้ของการจัดเก็บและ
ประมวลผลข้อมูลจำนวนมาก (เอกสารที่ใช้
รูปแบบภาษาธรรมชาติขึ้นอยู่ข้อมูลและการบริหาร
ข้อมูล) ฐานข้อมูลที่เหมาะสำหรับการประมวลผล
ข้อมูลจำนวนมากและพวกเขาสามารถนำมาใช้
อย่างมีประสิทธิภาพถ้าส่วนหลักของข้อมูลที่มีการประมวลผลที่อยู่ใน
ฐานข้อมูล ส่วนที่ 3 จะแสดงให้เห็นว่าเอกสาร
การทำงานคล้ายคลึงกันสามารถดำเนินการได้อย่างเต็มที่ภายใน
บริบทของฐานข้อมูลเชิงสัมพันธ์โดยใช้
Structured Query Language (SQL) [ISO 1992]
ง) การเพิ่มประสิทธิภาพของโปรไฟล์ผู้ใช้: ง่าย
วิธีการที่อธิบายข้างต้นจะเพิ่มเอกสารทั้งหมด
(และความผูกพันของพวกเขาในชั้นเรียน) ไปยังโปรไฟล์ของผู้ใช้
ที่ได้รับการแบ่งโดยระบบ ใน
ระยะยาวนี้นำไปสู่ปัญหาสองประการแรกที่ผู้ใช้
รายละเอียดขยายโดยไม่มีขีด จำกัด ใด ๆ ซึ่งจะช่วยลด
ผลการดำเนินงานการจัดหมวดหมู่ ประการที่สองระบบจะ
ไม่สามารถที่จะ "ลืม" อะไรที่นำมาใช้ นี้จะทำให้
การรับเลี้ยงบุตรบุญธรรมของการเปลี่ยนแปลงของข้อมูลของผู้ใช้เรียกร้อง
เป็นไปไม่ได้ ดังนั้นจึงเป็นสิ่งจำเป็นในการพัฒนาบาง
ชนิดของการปรับโครงสร้างองค์กรและการเก็บรวบรวมขยะ
วิธี ข้อมูลที่มีคุณภาพเป็นประโยชน์สำหรับ
การพัฒนาของวิธีการที่ดีที่สุด นี้
เป็นจุดการทำงานในอนาคตและจะไม่ถูกกล่าวถึง
ในบทความนี้ในรายละเอียดเพิ่มเติม

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

1 . แรงจูงใจ
ข้อมูลกรอง ( ถ้า ) ระบบถูกออกแบบมาเพื่อการสแกนเอกสารข้อมูล
อย่างถาวร ( เช่น newsticker
หรือ Usenet ) พวกเขาระบุอาจสำคัญ หรือเอกสารที่น่าสนใจสำหรับผู้ใช้
โดยแบ่งประเภทของพวกเขา สำหรับ
นักออกแบบของ ถ้าระบบการโปรไฟล์ผู้ใช้
เป็นความท้าทายที่ยิ่งใหญ่ สำหรับผู้ใช้แต่ละโปรไฟล์ได้

จะกำหนดโปรไฟล์นี้จะกำหนดเกณฑ์ที่ใช้ในการจำแนกผู้ใช้เฉพาะ

ของเอกสาร วิธีการหนึ่ง ( การแจกแจงวิธีการ )
ความหมายของภาษาเป็นทางการซึ่งถูกใช้ โดย
ผู้ใช้อธิบายโปรไฟล์ของเขา วิธีการนี้ได้ถูกใช้ในต้นแบบ
ถ้าพระราม [ ตัวแทน 1991 ] ,
Borges v2 [ 1996 ] และร่อนยันสมีเติ้น [ 2000 ]
ปัญหาด้วยวิธีนี้คือ ผู้ใช้มักจะ
ไม่สามารถระบุความต้องการของพวกเขาข้อมูล
อย่างถูกต้อง มีสองเหตุผลหลักนี้คือ มันเป็น
ยากสำหรับผู้ใช้เพื่ออธิบายเป็นเกณฑ์ ประการที่สอง
เป็นทางการภาษามีอำนาจพอที่จะจัดการกับความท้าทายของธรรมชาติ

ชอบ flexions การประมวลผลภาษาของ words1 synonyms2 polysems3 , และ .addi tionally มันควรจะมีประสิทธิภาพเพียงพอที่จะอนุญาตให้นิพจน์ที่ซับซ้อน ( เช่นการใช้ผู้ประกอบการบูลีน

" ชอบ " หรือ " และ " , " ไม่ " , ฯลฯ ) ในมือข้างหนึ่งทำให้เกิดเป็นจํานวนมาก
ของเวลาที่ผู้ใช้ต้องการที่จะโทภาษาใน
กรณีมันมีพลังมาก บนมืออื่น ๆการกรอง
ผลว่าระบบจะขาดถ้าภาษาที่ใช้งานง่ายแต่ไม่ได้

ที่มีประสิทธิภาพเพียงพอทางออกหนึ่งของปัญหานี้คือ การใช้วิธีการปรับ

ความคิดคือ ปัจจุบันบางประเมิน
เอกสารถ้าระบบและเพื่อให้มันสร้างผู้ใช้
โปรไฟล์ของตัวเอง เป็นระบบที่สามารถ ผลข้างเคียง
ปรับปรุงโปรไฟล์ผู้ใช้อย่างต่อเนื่องหากผู้ใช้เอง
misclassified ให้ข้อเสนอแนะในเอกสาร วิธีการนี้ได้ถูกนำไปใช้ใน newssieve

[ 2001 ] แฮนิกและตัวแทน [ PI kuropka 2001 ] ระบบ .
newssieve ปรับรายละเอียดของผู้ใช้ โดยการใช้ขั้นตอนวิธีเชิงวิวัฒนาการ
ในขณะที่และตัวแทนการใช้เครือข่ายด .
ทั้งสองวิธีมีเหมือนกันว่าเริ่มต้น
ข้อมูลเกี่ยวกับโปรไฟล์ผู้ใช้ ( ชุดฝึก )
แปลงเป็นรูปแบบภายใน ( เช่น เซลล์ประสาท
ยกน้ําหนัก ในกรณีของเครือข่ายของเซลล์ประสาท ) ซึ่งทำให้
การแสดงข้อมูลที่เข้าใจยากสำหรับผู้ใช้ ดังนั้น
ระบบไม่สามารถอธิบายของกฎการจำแนก
ในวิธีที่ง่าย นี้นำไปสู่ปัญหาต่อไปนี้
: ประการแรก ผู้ใช้มีการพึ่งพาการ
ให้ โดยหากระบบ โดยไม่รู้ว่า
หมวดหมู่เสร็จในรายละเอียด ประการที่สองในกรณีที่
ผู้ใช้ข้อมูลความต้องการเปลี่ยนแปลงจากวันหนึ่งไปยังอีก
หรือระบบไม่สามารถปรับข้อมูลความต้องการของเขา
มันเป็นไปไม่ได้สำหรับเขาที่จะทำให้การแก้ไขที่เหมาะสมบน
โปรไฟล์ของเขา ดังนั้น ผู้ใช้ต้องรอจนกว่าระบบมีการแก้ไขโปรไฟล์ของเขาโดยอัตโนมัติ
.
ส่วนมากของเอกสารที่อาจจะ misclassified .
ความตั้งใจของเราคือการใช้เป็นกรณีศึกษาแนวทาง
กำหนดโปรไฟล์ผู้ใช้ ซึ่งหมายความว่าผู้ใช้กำหนดของเขา
รายละเอียด ด้วยการนำเสนอบางประเมินเอกสาร
ระบบเหมือนในแนวทางการปรับตัว ในทางตรงกันข้ามกับแนวทางการปรับตัวครั้งแรก
โปรไฟล์ข้อมูลไม่ได้
เปลี่ยนเป็นบางชนิดของการเป็นตัวแทนภายใน .
เอกสารใหม่โดยการจัดหมวดหมู่ของเอกสารที่คล้ายกันมากที่สุด

จากผู้ใช้ข้อมูล การยอมรับง่าย ๆของโปรไฟล์ผู้ใช้สามารถ
ใช้วิธีนี้ทุกระบบมี misclassified
เอกสาร ผู้ใช้แก้ไขการประเมิน
เอกสารเพิ่มโปรไฟล์ ประโยชน์ของวิธีการนี้
มีความเป็นไปได้ที่จะเข้าใจรายละเอียด
เพราะมันเป็นเพียงชุดของข้อมูลเอกสาร โดย
เอาประเมินเอกสารหรือการแก้ไขเอกสารที่เหมาะสมในการประเมินใหม่

รายละเอียดที่เป็นไปได้ด้านดังต่อไปนี้ควรพิจารณาเมื่อมีการใช้กรณีศึกษา :
.
) เอกสาร : ความเหมือนความเหมือนฟังก์ชัน
จำเป็นเพื่อตรวจสอบความคล้ายคลึงกันระหว่างเก่า
และกรณีใหม่ " กรณี " นี่คือเอกสาร .
ดังนั้นบางชนิดของเอกสารความเหมือนฟังก์ชัน
ที่จําเป็น ฟังก์ชันนี้จะ derivated จาก
ทฤษฎีพื้นฐานซึ่งได้แสดงไว้ในหมวด 2
ในรายละเอียด .
b ) การจำแนกประเภทเอกสาร : ประเภทเอกสาร
เราเสนอการใช้ละเพื่อนบ้านจัด
( knn ) วิธีนี้เป็นวิธีง่าย ๆ ถ้าคุณใส่
ทดสอบเอกสารเข้าระบบ , ระบบค้นหา K
ใกล้เพื่อนบ้านของไฟล์เอกสาร ครับผมใช้ประเภทของ K เพื่อนบ้านน้ำหนัก
ประเภทของการทดสอบเอกสาร
หมายถึงการตรวจสอบยางและหลิว , knn ( ใช้ความเหมือนบน
โคไซน์เวกเตอร์เอกสาร ) เป็นหนึ่งในวิธีการที่ดีที่สุดสำหรับการจัดหมวดหมู่ข้อความ
[ หยาง 2542 ] กระดาษ
อธิบายงานของเราซึ่งยังอยู่ในความคืบหน้า ที่
ปัจจุบันเราไม่ได้มีข้อมูลเพียงพอที่เหมาะสมเพื่อวิ่ง
เพิ่มประสิทธิภาพในพารามิเตอร์ของ knn . ดังนั้น ,
knn งานในอนาคตและจะไม่กล่าวถึงในบทความนี้

รายละเอียดเพิ่มเติมc ) การประมวลผลที่มีประสิทธิภาพของขนาดใหญ่ปริมาณของข้อมูลแบบถาวร
: ถ้าระบบทำงานได้หลาย
แหล่งข่าวเช่นเดียวกับจำนวนมากของผู้ใช้ .
ความต้องการเพิ่มเติม : ผู้ใช้ทุกคนควรมี
โปรไฟล์ของตัวเองซึ่งสนับสนุนรูปแบบการจำแนก
หลายหมวดหมู่เช่น โดยความสำคัญหรือ
หัวข้อ ) กําหนดการคงอยู่ของความน่าเชื่อถือของข้อมูล
ความต้องการอื่น ๆครอบคลุมความเป็นไปได้ของการจัดเก็บและ
การประมวลผลเป็นจํานวนมากของข้อมูล ( เอกสารผู้ใช้
โปรไฟล์ภาษาธรรมชาติ ขึ้นอยู่กับข้อมูลและการบริหาร
) ฐานข้อมูลเพิ่มประสิทธิภาพสำหรับการประมวลผล
ขนาดใหญ่ปริมาณของข้อมูลและพวกเขาสามารถใช้
ได้อย่างมีประสิทธิภาพถ้าส่วนของข้อมูลจะถูกประมวลผลภายใน
ฐานข้อมูล ส่วนที่ 3 จะแสดงวิธีการที่เอกสาร
ความคล้ายคลึงกันของฟังก์ชั่นสามารถเต็มรูปแบบภายใน
บริบทของฐานข้อมูลเชิงสัมพันธ์โดยใช้
ภาษาสอบถามเชิงโครงสร้าง ( SQL ) [ ISO 1992 ] .
d ) การเพิ่มประสิทธิภาพการใช้โปรไฟล์ผู้ใช้ : ง่าย ๆวิธีการที่อธิบายข้างต้นจะเพิ่มการยอมรับ

( เอกสารทั้งหมด และต้นสังกัดในชั้นเรียน ) ผู้ใช้โปรไฟล์
ซึ่งมี ได้รับการ misclassified โดยระบบ บน
ยาวทำให้เกิดปัญหา 2 ประการ ประการแรกผู้ใช้
โปรไฟล์ขยายโดยไม่มีขีดจำกัด นี้ช่วยลด
ประสิทธิภาพการจำแนก ประการที่สอง ระบบ
ไม่ได้ลืมอะไรไว้ นี้จะทำให้การยอมรับของผู้ใช้เป็น

ข้อมูลความต้องการที่เป็นไปไม่ได้ จึงจำเป็นอย่างยิ่งที่จะต้องพัฒนาบางชนิดของการประนอมหนี้และวิธี

เก็บขยะ ข้อมูลที่มีคุณสมบัติเป็นประโยชน์สําหรับ
การพัฒนาประสิทธิภาพการใช้วิธี จุดนี้
เป็นของการทำงานในอนาคต และจะไม่กล่าวถึง
ในกระดาษนี้ในรายละเอียดเพิ่มเติม

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.