Design and implementation of information retrieval
system based ontology
Lachtar Nadia
Preparatory School for sciences and techniques
Annaba, Algeria nadia _ ishak2002@yahoo.fr
Abstract-Nowadays, the resources available on the web increases significantly. It then has a large volume of information, but without mastery of content. In this immense data warehouse research of current information retrieval systems do not allow users to obtain results to their requests that meet exactly their needs. This is due in large part to indexing techniques (key words, thesaurus). The result is that the user of the web wasting much of his time to examine a large number of Web page by searching for what he needs, because the Web does not provide service in this direction. The Semantic Web is the solution; this new vision of the web is to make web resources not only understandable by humans but also by machines. To improve the relevance of information retrieval, we propose in this paper an approach based on the use of domain ontology for indexing a collection of documents and the use of semantic links between documents in the collection to allow the inference of all relevant documents. The work involves the implementation of a system based on the use of OWL ontology for research pedagogical documents. In this case, the descriptors are not directly chosen in the documents but in the ontology and are indexed by concepts that reflect their meaning rather than words are often ambiguous. To perform a search based on meaning, documents and their descriptors are stored in OWL ontologies describing the documentary features of a document. The objective is to design two types of OWL ontologies: document ontology reserved for storage of all pedagogical documents and domain ontology reserved for well-structured of documents stored in the level of the document ontology and each document is indexed by its keywords and their synonyms.
Keywords-component; Pedagogical document; Information retrieval; ontology; sematic web; indexation
I. INTRODUCTION
The information retrieval (lR) is an ancient discipline; it dates back to the 50s. His problematic can be seen as the satisfaction of a need for information of user, which is expressed by a query on a collection of documents called the corpus or collection [14, 12] .The information retrieval systems (IRS) allows you to automate the task of IR. The evaluation of such systems appears to be a necessity. This evaluation is based on the concept of relevance. So, to improve the relevance of IR in IRS, several studies have been made at various levels. Thus, there have been proposed several IR models:
The Boolean model, Boolean queries are composed of words and Boolean operators (AND, OR, NOT).
Documentalists have more control over this type of query that is often difficult to formulate for the uninitiated user. This type of query is the most used for access to specialized databases (Pascal), is also available for many search engines on the web such as Google and Yahoo from advanced search interfaces.
The vector model [11], in this model, documents and queries are represented as vectors in the space of words from indexing. The documents are then ordered from their similarity to the query. Several measures (scalar product, Measurement Dice, Jaccard measure, ... ) are used to calculate the similarity between the two calculations corresponding to the distance between the two vectors.
The probabilistic model is based on the probability of relevance of a document knowing the query.
The connectionist mode� LSI ... Some work has focused on the representation of information needs, the length of the query [15] or the reformulation of the query [8].
Other studies have looked at the indexing process and indexing languages. Several techniques have been proposed: keyword lists have the ambiguity problem due to polysemy, thesauruses unlike semantic networks are not limited to the defming relationship of lexical relations between nodes [1, 9, 10, 16], such as in the medical field Mesh and WordNet [6] for the English language.
The approximate, poor and partial representation of semantic content of documents using indexing techniques (keywords or thesaurus) presents problems of indexing words:
• When different words refer to same sense, the indexer generally favors the word that appears in the document. Assuming that the user uses in his request another word, so, it does not access the documents related to this notion. The synonymy produces documentary silence.
• When the same word refers to different meanings, use of the word by the user results in a response containing documents on these notions, even if it is only interested in one of these concepts. The homonymy produces documentary noise.
This led to the use of knowledge representation formalisms of more accurate and rich expression skills. Among these formalisms, ontologies are used to characterize a domain by a set of concepts and relationships
ออกแบบและการดำเนินงานของการเรียกข้อมูล ระบบภววิทยา นาเดีย Lachtar โรงเรียนเตรียมวิทยาศาสตร์และเทคนิค แรน Annaba แอลจีเรียนาเดีย_ ishak2002@yahoo.fr Abstract-Nowadays, the resources available on the web increases significantly. It then has a large volume of information, but without mastery of content. In this immense data warehouse research of current information retrieval systems do not allow users to obtain results to their requests that meet exactly their needs. This is due in large part to indexing techniques (key words, thesaurus). The result is that the user of the web wasting much of his time to examine a large number of Web page by searching for what he needs, because the Web does not provide service in this direction. The Semantic Web is the solution; this new vision of the web is to make web resources not only understandable by humans but also by machines. To improve the relevance of information retrieval, we propose in this paper an approach based on the use of domain ontology for indexing a collection of documents and the use of semantic links between documents in the collection to allow the inference of all relevant documents. The work involves the implementation of a system based on the use of OWL ontology for research pedagogical documents. In this case, the descriptors are not directly chosen in the documents but in the ontology and are indexed by concepts that reflect their meaning rather than words are often ambiguous. To perform a search based on meaning, documents and their descriptors are stored in OWL ontologies describing the documentary features of a document. The objective is to design two types of OWL ontologies: document ontology reserved for storage of all pedagogical documents and domain ontology reserved for well-structured of documents stored in the level of the document ontology and each document is indexed by its keywords and their synonyms. Keywords-component; Pedagogical document; Information retrieval; ontology; sematic web; indexation I. INTRODUCTION The information retrieval (lR) is an ancient discipline; it dates back to the 50s. His problematic can be seen as the satisfaction of a need for information of user, which is expressed by a query on a collection of documents called the corpus or collection [14, 12] .The information retrieval systems (IRS) allows you to automate the task of IR. The evaluation of such systems appears to be a necessity. This evaluation is based on the concept of relevance. So, to improve the relevance of IR in IRS, several studies have been made at various levels. Thus, there have been proposed several IR models: The Boolean model, Boolean queries are composed of words and Boolean operators (AND, OR, NOT). Documentalists have more control over this type of query that is often difficult to formulate for the uninitiated user. This type of query is the most used for access to specialized databases (Pascal), is also available for many search engines on the web such as Google and Yahoo from advanced search interfaces. The vector model [11], in this model, documents and queries are represented as vectors in the space of words from indexing. The documents are then ordered from their similarity to the query. Several measures (scalar product, Measurement Dice, Jaccard measure, ... ) are used to calculate the similarity between the two calculations corresponding to the distance between the two vectors. The probabilistic model is based on the probability of relevance of a document knowing the query. The connectionist mode� LSI ... Some work has focused on the representation of information needs, the length of the query [15] or the reformulation of the query [8]. Other studies have looked at the indexing process and indexing languages. Several techniques have been proposed: keyword lists have the ambiguity problem due to polysemy, thesauruses unlike semantic networks are not limited to the defming relationship of lexical relations between nodes [1, 9, 10, 16], such as in the medical field Mesh and WordNet [6] for the English language. The approximate, poor and partial representation of semantic content of documents using indexing techniques (keywords or thesaurus) presents problems of indexing words: • When different words refer to same sense, the indexer generally favors the word that appears in the document. Assuming that the user uses in his request another word, so, it does not access the documents related to this notion. The synonymy produces documentary silence. • When the same word refers to different meanings, use of the word by the user results in a response containing documents on these notions, even if it is only interested in one of these concepts. The homonymy produces documentary noise. This led to the use of knowledge representation formalisms of more accurate and rich expression skills. Among these formalisms, ontologies are used to characterize a domain by a set of concepts and relationships
การแปล กรุณารอสักครู่..

การออกแบบและพัฒนาระบบสืบค้นสารสนเทศภววิทยาที่ใช้ระบบlachtar นาเดียโรงเรียนเตรียมอุดมศึกษาสำหรับวิทยาศาสตร์และเทคนิคนาเดีย _ ishak2002@yahoo.fr Annaba , แอลจีเรียบทคัดย่อปัจจุบัน ทรัพยากรที่มีอยู่บนเว็บเพิ่มขึ้นอย่างมีนัยสำคัญ มันก็มีปริมาณมากของข้อมูล แต่ไม่มีการเรียนรู้เนื้อหา ในคลังข้อมูลมหาศาลวิจัยของระบบการค้นคืนสารสนเทศในปัจจุบันไม่อนุญาตให้ผู้ใช้เพื่อให้ได้ผลของการร้องขอที่ตอบสนองตรงความต้องการของตน นี้คือเนื่องจากในส่วนที่มีขนาดใหญ่เทคนิคดัชนี ( คำคีย์พจนานุกรม ) ผลที่ได้คือผู้ใช้เว็บของการสูญเสียมากของเวลาของเขาที่จะตรวจสอบหมายเลขขนาดใหญ่ของเว็บโดยการค้นหาสิ่งที่เขาต้องการ เพราะเว็บไม่ได้ให้บริการในทิศทางนี้ เว็บทางความหมายคือ โซลูชั่น ; วิสัยทัศน์ใหม่ของเว็บคือการทำให้ทรัพยากรเว็บไม่เพียง แต่เข้าใจกัน โดยมนุษย์ แต่ยังโดยเครื่อง เพื่อปรับปรุงความเกี่ยวข้องของการดึงข้อมูลที่เรานำเสนอในบทความนี้วิธีการขึ้นอยู่กับการใช้โดเมนอภิปรัชญาเพื่อการรวบรวมเอกสาร และการใช้ระบบการเชื่อมโยงระหว่างเอกสารในการเก็บรวบรวมเพื่อให้สรุปเอกสารที่เกี่ยวข้องทั้งหมด งานที่เกี่ยวข้องกับการดำเนินงานของระบบขึ้นอยู่กับการใช้อภิปรัชญานกฮูกสำหรับเอกสารการวิจัย ในกรณีนี้ , ไม่ได้โดยตรงในการเลือกในเอกสาร แต่ในอภิปรัชญาและการสร้างดัชนีโดยแนวคิดที่สะท้อนให้เห็นถึงความหมายของพวกเขามากกว่าคำพูดมักจะไม่ชัดเจน เพื่อดำเนินการค้นหาที่ยึดตามความหมาย เอกสาร และในของพวกเขาจะถูกเก็บไว้ในนกฮูกนโทโลจีบรรยายสารคดีของเอกสาร โดยมีวัตถุประสงค์เพื่อออกแบบสองประเภทของนกฮูกนโทโลจี : อภิปรัชญาที่สงวนไว้สำหรับจัดเก็บเอกสารทุกเอกสารและโดเมนที่สงวนไว้สำหรับสอนอภิปรัชญาดีโครงสร้างของเอกสารที่เก็บไว้ในระดับของเอกสารอภิปรัชญาและเอกสารแต่ละเป็นดัชนีของคำหลักและคำพ้องความหมายของพวกเขาคำหลักองค์ประกอบ ; เอกสารการสอน การสืบค้นสารสนเทศอภิปรัชญา ; พลังไฟฟ้าลดลง sematic เว็บผมแนะนำการสืบค้นข้อมูลสารสนเทศ ( LR ) เป็นวินัยโบราณ มันวันที่กลับไป 50s ของเขามีปัญหาจะเห็นได้ตามความพึงพอใจของความต้องการของผู้ใช้ ซึ่งแสดงโดยแบบสอบถามบนคอลเลกชันของเอกสารหรือเรียกว่า คอร์ปัส คอลเลกชัน [ 14 , 12 ] . สืบค้น ( IRS ) ช่วยให้ระบบ คุณโดยอัตโนมัติงาน IR การประเมินผลของระบบดังกล่าวดูเหมือนจะเป็นสิ่งจำเป็น การประเมินนี้จะขึ้นอยู่กับแนวคิดของความเกี่ยวข้อง ดังนั้นเพื่อปรับปรุงความเกี่ยวข้องของ IR ใน IRS , การศึกษาหลายแห่งได้รับการทำในระดับต่าง ๆ ดังนั้น จึงมีการเสนอหลายและรูปแบบ :ในตรรกะแบบบูลีนแบบสอบถามจะประกอบด้วยคำพูดและผู้ประกอบการบูลีน ( และ , หรือ , ไม่ )documentalists ควบคุมชนิดของแบบสอบถามที่มักจะเป็นเรื่องยากที่จะกำหนดให้ผู้ใช้มือใหม่ . ของแบบสอบถามชนิดนี้ส่วนใหญ่ใช้สำหรับการเข้าถึงฐานข้อมูลของผู้เชี่ยวชาญ ( Pascal ) และยังสามารถใช้ได้กับเครื่องมือค้นหาจำนวนมากบนเว็บเช่น Google และ Yahoo จากอินเทอร์เฟซการค้นหาขั้นสูงเวกเตอร์ฟรีเกี่ยวกับรูปแบบ [ 11 ] ในรูปแบบเอกสารและแบบสอบถามจะแสดงเป็นเวกเตอร์ในปริภูมิของคำพูดจากดัชนี . เอกสารจะถูกสั่งจากความคล้ายคลึงกันของพวกเขาเพื่อการ หลายมาตรการ ( สเกลาร์ผลิตภัณฑ์ , การวัดลูกเต๋า Jaccard วัด . . . . . . . ) ใช้ในการคำนวณความคล้ายระหว่างสองการคำนวณสอดคล้องกับระยะห่างระหว่างสองเวกเตอร์แบบจำลองความน่าจะเป็นจะขึ้นอยู่กับความน่าจะเป็นของความเกี่ยวข้องของเอกสารว่าแบบสอบถามโหมดคอนเนคชันนิ ์� LSI . . . . . . . บางงาน ได้มุ่งเน้นในการเป็นตัวแทนของความต้องการ ความยาวของแบบสอบถาม [ 15 ] หรือ reformulation ของแบบสอบถาม [ 8 ]การศึกษาอื่น ๆได้ดูกระบวนการการดัชนีและภาษา หลายเทคนิคได้รับการเสนอรายการคำหลักที่มีปัญหาเนื่องจาก polysemy thesauruses คลุมเครือ , ซึ่งแตกต่างจากเครือข่ายความหมายจะไม่ จำกัด การ defming ความสัมพันธ์ของคำศัพท์ ความสัมพันธ์ระหว่างโหนด [ 1 , 9 , 10 , 16 ] เช่นในสาขาการแพทย์ ตาข่าย และเครือข่ายคำ [ 6 ] ในภาษาอังกฤษประมาณ , ยากจนและบางส่วนแสดงเนื้อหาความหมายของเอกสารโดยใช้เทคนิคดัชนี ( คำหลักหรือพจนานุกรม ) นำเสนอปัญหาของคำการสร้างดัชนี :- เมื่อคำพูดที่แตกต่างกันหมายถึงความรู้สึกเดียวกัน , ดัชนีโดยทั่วไปชอบคำที่ปรากฏในเอกสาร สมมติว่าผู้ใช้ใช้ในการร้องขอของเขาอีกเลย ดังนั้น มันไม่เข้าถึงเอกสารที่เกี่ยวข้องกับความคิดนี้ การมีความหมายเหมือนกันที่ผลิตสารคดีเงียบ- เมื่อคำเดิม หมายถึง ความหมายแตกต่างกัน การใช้คำโดยผู้ใช้ผลลัพธ์ในการตอบสนองที่มีเอกสารในความคิดเหล่านี้ แม้ว่าจะเป็นเพียงความสนใจในแนวคิดนี้ เสียงที่ homonymy ผลิตสารคดีนี้นำไปสู่การใช้ความรู้และทักษะของตัวแทน formalisms ถูกต้องมากขึ้นการแสดงออกที่อุดมไปด้วย ระหว่าง formalisms เหล่านี้ นโทโลจีจะใช้ในลักษณะของโดเมน โดยชุดของแนวคิด และประชาสัมพันธ์
การแปล กรุณารอสักครู่..
