freq is the number of occurrences of term i t in document j d , N IS number of documents in collection, and i ท is the document frequency for term i t in the whole document collection. The similarity which is presented as sim, measure between a document d and the query q is computed as shown in equation (2) below:
The query process takes an input as a user search request. The search request can be either a list of keywords or a complex natural language query. The search request will be first analysed by a query parser and will be parsed into SPARQL. These queries are then sent to the inference engine which will return a set of RDF (Resource Description Framework) triples containing the related concepts or instances in the Knowledge Base which is our respective domain ontology, digital library. For example the simple query where a user want to know who is the supervisor for Arifah Alhadi who is a studentl, the query will be generated by SPARQL as follows:
B. Document Annotation
The specific architecture framework of the ontology based information retrieval process is depicted in the Figure 2 as follows. To support the semantic search, the annotation class is added as an extension of the ontology.
The document annotation and ranking algorithm is defined in the proposed framework as shown in figure 2 above. In the proposed framework, the unstructured documents are first lemmatized, tokenized, weighted and defined frequency within the semantic analysis process and stored in a normal database. To enable semantic search, terms in the documents are annotated with concept instances from the existing KB by creating instances of the Annotation Class. Annotation Class is purposedly created to facilitate the semantic search. It is a part of the ontology which is stored the annotated documents separately in different database. Documents which are terms are annotated with the related instances in the existing ontology. Annotation Class will link between the knowledge base and the normal database upon the executed query. Annotation class is provided for the purpose of basis for the semantic indexing of documents. It is used to store the annotated terms, concept of the annotated term and all the concepts which are related to each of the annotated term. Annotation class has two properties which are instance and document, where the concepts and documents are related together. Whenever the label of an instance in the ontology is found, an annotation is created between the instance and the document. It then will be stored in the annotation class under the property of term (instance), concept and document by which are related to each other. Thus, whenever a user sent a search query, the searching will be run upon the ontology first. Whenever the satisfied query found in the domain ontology, it then will be referred to the annotation class which is also part of the ontology and then the documents will be retrieved and presented to the user.
The process of document annotation begins with the syntactic process of the unstructured document which we focused on the academic theses. The basic linguistic process of tokenization, sentence splitting and lemmatizing is done and the term weight and frequency is calculated. The structured terms which are stored in a normal database will be map to the domain ontology. For our research study, we used the ACM topic hierarchy which is a lightweight domain ontology. In order to support semantic search, each lemmatized term stored in normal database will be matched to the related concept in the ontology using label presented in the ontology instances. If a match is found, the concept URTs is added to the Annotation Class. For example, refer to figure 2, the lemmatized term of "Arifah Alhadi" will be notified as a label and matched to the labels presented in the thesis.owl. Once the match is found, the annotation is created between the term and the document. The URIs of the instance and the related concept will be added to the Annotation Class. The instance of "Arifah Alhadi" is a "Studentl" under the concept of "Student" which is a subClassOf "Creator" and "Person". All the inferred class will be annotated and stored in the Annotation Class. The inferred class to the instance "Studentl" will be "Student", "Creator" and "Person".
V. DISCUSSION AND CONCLUSION
In this paper, a semantic information retrieval framework to improve the precision of search results by concentrating on the context of concepts is presented. Instead of keywords matching technique, the RDF triples is used. Document annotation is represented as an extension ontology and store them in a separate relational database. The triple searching and semantic matching is performed by the inference engine and results are passed to the ranker to sort them according to their relevancy to user'ร queries. In the current framework we focused on academic theses. Our near future is currently focusing on the aspect of document annotation. Current annotation is purely based on exact match by referring to the labels of each instances stored in the KB. We look into the possibility of doing document annotation by means inexact match or contextual term matching.
ACKNOWLEDGMENT
We would like to thank Universiti Kebangsaan Malaysia for supporting this research project and the anonymous reviewers for reviewing this paper.
ความถี่คือจำนวนของการเกิดขึ้นของเงื่อนไขผมไม่ได้เอกสาร J D , n คือจำนวนของเอกสารในคอลเลกชัน และทเป็นความถี่เอกสารสำหรับผมในระยะ T ในการรวบรวมเอกสารทั้งหมด ความเหมือนที่นำเสนอเป็น ซิม วัดระหว่างเอกสารและแบบสอบถาม Q จะคำนวณดังแสดงในสมการที่ ( 2 ) ด้านล่าง :
สอบถามกระบวนการใช้ input เป็นผู้ใช้ค้นหาขอค้นหาขอสามารถให้รายชื่อของคำหลักหรือแบบสอบถามภาษาธรรมชาติที่ซับซ้อน ค้นหาต้องการจะแรกวิเคราะห์ข้อมูลโดยใช้แบบสอบถามสำหรับและจะแจงเป็น sparql .ข้อมูลเหล่านี้จะถูกส่งไปกลไกการอนุมานซึ่งจะแสดงชุดของ RDF ( กรอบคำอธิบายทรัพยากร ) อเนกประสงค์ที่มีแนวคิดที่เกี่ยวข้องหรืออินสแตนซ์ในฐานความรู้ที่เกี่ยวข้องของเราโดเมนภววิทยา , ห้องสมุดดิจิตอล ตัวอย่างแบบสอบถามอย่างง่ายที่ผู้ใช้ต้องการทราบว่าใครเป็นผู้บังคับบัญชา เพื่อ arifah alhadi studentl คือใคร ,แบบสอบถามจะถูกสร้างขึ้นโดย sparql ดังนี้ :
B หมายเหตุเอกสารกระบวนการกู้คืนข้อมูลตามกรอบสถาปัตยกรรมเฉพาะของอภิปรัชญาจะแสดงในรูปที่ 2 ดังนี้ เพื่อสนับสนุนการค้นหาความหมาย , การจัดการชั้นเรียนเพิ่มเป็นส่วนขยายของอภิปรัชญา .
เอกสารบันทึกย่อและการจัดอันดับเป็นกลไกที่กำหนดไว้ในการเสนอกรอบดังแสดงในรูปที่ 2 ข้างต้น ในการเสนอกรอบแนวคิด เอกสารที่ไม่มีโครงสร้างเป็นครั้งแรก lemmatized tokenized , ถ่วงน้ำหนักและกำหนดความถี่ในกระบวนการการวิเคราะห์ความหมายและเก็บไว้ในฐานข้อมูลปกติ เพื่อช่วยให้ค้นหาความหมายเงื่อนไขในเอกสารบันทึกย่อ ด้วยอินสแตนซ์จากแนวคิดบางครั้งที่มีอยู่ โดยการสร้างอินสแตนซ์ของการจัดการชั้นเรียน การจัดการเรียน purposedly สร้างขึ้นเพื่อความสะดวกในการค้นหาความหมาย มันเป็นส่วนหนึ่งของภววิทยาซึ่งเก็บบันทึกย่อเอกสารที่แยกต่างหากในฐานข้อมูลที่แตกต่างกัน เอกสารซึ่งมีบันทึกย่อที่เกี่ยวข้องกับอินสแตนซ์ในอภิปรัชญาที่มีอยู่การจัดการชั้นเรียนจะเชื่อมโยงระหว่างความรู้พื้นฐานและปกติฐานข้อมูลเมื่อดำเนินการแบบสอบถาม การจัดการชั้นเรียนให้มีพื้นฐานสำหรับการเปรียบเทียบเอกสาร มันถูกใช้เพื่อเก็บบันทึกย่อเรื่อง แนวคิดของบันทึกย่อระยะเวลาและแนวความคิดที่เกี่ยวข้องกับแต่ละของบันทึกย่อที่ระยะยาวการจัดการชั้นเรียนที่มีสองคุณสมบัติซึ่งเป็นตัวอย่างและเอกสาร ซึ่งแนวคิดและเอกสารที่เกี่ยวข้องกัน เมื่อใดก็ตามที่ฉลากของอินสแตนซ์ในอภิปรัชญาพบการบันทึกย่อจะถูกสร้างขึ้นระหว่างตัวอย่างและเอกสาร มันก็จะถูกเก็บไว้ในการจัดการชั้นเรียน ภายใต้คุณสมบัติของเทอม ( ตัวอย่าง ) , แนวคิดและเอกสารที่เกี่ยวข้องกับแต่ละอื่น ๆ ดังนั้นเมื่อใดก็ตามที่ผู้ใช้ส่งการค้นหา , การค้นหาจะวิ่งอยู่บนนโทโลจีก่อน เมื่อพอใจในแบบสอบถามพบโดเมนภววิทยา , มันก็จะอ้างถึงการจัดการชั้นเรียนซึ่งเป็นส่วนหนึ่งของอภิปรัชญาและเอกสารจะถูกดึงและนำเสนอให้กับผู้ใช้ .
กระบวนการของการจัดการเอกสารเริ่มต้นด้วยกระบวนการทางวากยสัมพันธ์ของแต่ละเอกสารที่เราเน้นงานวิจัยเชิงวิชาการ กระบวนการพื้นฐานของภาษา tokenization แยกประโยคและ lemmatizing เสร็จแล้ว และระยะ น้ำหนัก และความถี่จะถูกคำนวณ ที่เป็นเงื่อนไข ซึ่งจะถูกเก็บไว้ในฐานข้อมูลปกติจะเป็นแผนที่ไปยังโดเมนอภิปรัชญา . สำหรับการศึกษาวิจัยของเราเราใช้ ACM หัวข้อลำดับชั้นซึ่งเป็นภววิทยาโดเมนที่มีน้ำหนักเบา เพื่อสนับสนุนการค้นหาความหมาย แต่ละ lemmatized คําที่เก็บไว้ในฐานข้อมูลปกติจะตรงกับแนวคิดในการใช้ป้ายแสดงในอภิปรัชญาอภิปรัชญากรณี ถ้าการแข่งขันถูกพบ แนวคิด urts เพิ่มบันทึกย่อห้อง ตัวอย่าง ดูรูปที่ 2การ lemmatized ระยะของ " arifah alhadi " จะได้รับแจ้งเป็นป้ายชื่อและตรงกับป้ายที่แสดงใน thesis.owl . เมื่อการแข่งขันถูกพบ บันทึกย่อจะถูกสร้างขึ้นระหว่างระยะเวลาและเอกสาร โดย URIs ของตัวอย่างและแนวคิดที่เกี่ยวข้องจะถูกเพิ่มเพื่อการจัดการชั้นเรียนตัวอย่างของ " arifah alhadi " เป็น " studentl " ภายใต้แนวคิด " นักศึกษา " ซึ่งเป็น subclassof " ผู้สร้าง " และ " คน " ทั้งหมดที่ได้เรียนจะถูกบันทึกย่อและเก็บไว้ในการจัดการชั้นเรียน การได้เรียนกับอินสแตนซ์ " studentl " จะเป็น " นักเรียน " , " ผู้สร้าง " และ " คน " .
V
ในการอภิปราย และสรุปผลรายงานกรอบการค้นคืนสารสนเทศความหมายเพื่อปรับปรุงความแม่นยำของผลการค้นหาโดยคำนึงถึงบริบทของแนวคิดที่นำเสนอ . แทนที่คำหลักที่ตรงกัน เทคนิค , ข้อมูลอเนกประสงค์ใช้ หมายเหตุ เอกสารจะถูกแสดงเป็นส่วนขยายอภิปรัชญาและเก็บไว้ในฐานข้อมูลแยกต่างหาก .สามการค้นหาและการจับคู่ความหมายจะดําเนินการโดยสรุป ผลเครื่องยนต์และจะถูกส่งผ่านไปยังอันดับเรียงตามความเกี่ยวข้องของพวกเขาที่จะใช้ของผู้ใช้แบบสอบถาม ในกรอบปัจจุบันเราเน้นงานวิจัยเชิงวิชาการ อนาคตของเราอยู่ในขณะนี้ โดยเน้นด้านการจัดการเอกสารหมายเหตุปัจจุบันเป็นไปตามหมดจดในตรงกันทั้งหมด โดยอ้างอิงกับป้ายชื่อของแต่ละกรณีเก็บไว้ใน KB เราดูในความเป็นไปได้ของการทำหมายเหตุเอกสารโดยวิธีการจับคู่ไม่ละเอียดหรือในระยะที่ตรงกับบริบท รับทราบ
ขอขอบคุณมหาวิทยาลัยแห่งชาติมาเลเซีย เพื่อสนับสนุนโครงการวิจัยนี้ และความคิดเห็นจากการทบทวนเอกสารนี้
.
การแปล กรุณารอสักครู่..
