1. Introduction
Cross-language information retrieval (CLIR) is the circumstance in which a user tries to search a set of
documents written in one language for a query in another language. The issues of CLIR have been discussed
for several decades. As widely recognized, research efforts for developing CLIR techniques can be
traced back to Gerard Saltons articles in the early 1970s (e.g., Salton, 1970).
Especially after the advent of the World Wide Web in the 1990s, CLIR has become more important,
allowing users to access information resources written in a variety of languages on the Internet. Since then,
the research community of IR has begun to tackle problems of CLIR extensively and intensively. The Currently, CLIR issues are addressed in workshops of large-scale retrieval experiments such as TREC,
CLEF and NTCIR. As described in the introductory paper to this issue, each workshop has been concerned
with languages other than English as follows:
TREC: Spanish, Chinese, German, French, Italian, and Arabic.
CLEF: French, German, Italian, Swedish, Spanish, Dutch, Finnish, and Russian so far.
NTCIR: Japanese, Chinese and Korean.
Various research findings on CLIR have been reported at the meetings of TREC, CLEF and NTCIR,
and many papers have been published in scientific journals and proceedings.
This article aims at reviewing techniques and methods for enhancing performance of CLIR. We already
have a comprehensive review on this topic (Oard & Diekema, 1998). In addition, Peters and Sheridan
(2001) cover a wide range of literature and topics on CLIR. The main purpose of this article is to examine
literature subsequent to the review by Oard and Diekema and to attempt to organize research results since
the mid-1990s in the CLIR field from a technical point of view. For this purpose, some works listed in Oard
and Diekema (1998) will be referred to again in this article.
However, it should be noted that this review cannot be completely comprehensive because of the large
number of papers on CLIR published in various research areas. The purpose here is to provide a useful
map of technical issues of CLIR, rather than extensively enumerating research papers on CLIR. This paper
is mainly concerned with ‘‘document retrieval,’’ or ‘‘text retrieval’’ issues. For example, CLIR for multimedia
data is outside our scope.
The rest of the paper is organized as follows. First, in Section 2, we discuss techniques to match query
terms with document representations in the CLIR. More specifically, various methods of translation are
described. Section 3 is dedicated to explaining some techniques for solving the problem of term ambiguity,
which may occur in the process of translation. Some formal models for CLIR are introduced in Section 4.
In particular, we describe the application of the language model (LM), which enables us to combine the
retrieval model and the translation model. In Section 5, other important CLIR research topics are discussed:
the pivot language approach, search of multilingual document collections, combination of language
resources, issues on processing of individual language, user interface for interactive CLIR and evaluation of
CLIR. Finally, Section 6 briefly discusses the future direction of CLIR research.
1. บทนำ
การดึงข้อมูลข้ามภาษา (CLIR) เป็นกรณีที่ผู้ใช้พยายามที่จะค้นหาชุดของ
เอกสารที่เขียนในภาษาหนึ่งสำหรับการค้นหาในภาษาอื่น ปัญหาของการ CLIR ได้รับการกล่าวถึง
เป็นเวลาหลายทศวรรษที่ผ่านมา ในฐานะที่ได้รับการยอมรับอย่างกว้างขวางสำหรับการวิจัยการพัฒนาเทคนิค CLIR สามารถ
ตรวจสอบกลับไปเจอราร์ด Salton? s บทความในต้นปี 1970 (เช่น Salton, 1970).
โดยเฉพาะอย่างยิ่งหลังจากการถือกำเนิดของเวิลด์ไวด์เว็บในปี 1990, CLIR ได้กลายเป็นสิ่งที่สำคัญมาก ,
ช่วยให้ผู้ใช้สามารถเข้าถึงแหล่งข้อมูลที่เขียนในความหลากหลายของภาษาบนอินเทอร์เน็ต ตั้งแต่นั้นมา
การวิจัยชุมชนของ IR ได้เริ่มที่จะจัดการกับปัญหาของ CLIR อย่างกว้างขวางและอย่างหนาแน่น ปัจจุบันปัญหา CLIR มีการระบุในการประชุมเชิงปฏิบัติการการทดลองดึงขนาดใหญ่เช่น TREC,
โน๊ตและ NTCIR ตามที่อธิบายไว้ในบทความเบื้องต้นกับปัญหานี้แต่ละคนได้รับการอบรมเชิงปฏิบัติการที่เกี่ยวข้อง
กับภาษาอื่นที่ไม่ใช่ภาษาอังกฤษดังนี้
TREC. สเปน, จีน, เยอรมัน, ฝรั่งเศส, อิตาลี, และภาษาอาหรับ
Clef: ฝรั่งเศส, เยอรมัน, อิตาลี, สวีเดน, สเปน, ดัตช์, ฟินแลนด์และรัสเซียเพื่อให้ห่างไกล.
NTCIR. ญี่ปุ่น, จีนและเกาหลี
ผลการวิจัยต่างๆใน CLIR ได้รับการรายงานในที่ประชุมของ TREC, โน๊ตและ NTCIR,
และเอกสารจำนวนมากได้รับการตีพิมพ์ในวารสารทางวิทยาศาสตร์และการดำเนินการตามกฎหมาย.
บทความนี้มีจุดมุ่งหมาย ในการทบทวนเทคนิคและวิธีการในการเพิ่มประสิทธิภาพการทำงานของ CLIR เราได้
มีการตรวจสอบที่ครอบคลุมเกี่ยวกับหัวข้อนี้ (Oard และ Diekema, 1998) นอกจากนี้ปีเตอร์สและเชอริแดน
(2001) ครอบคลุมหลากหลายของวรรณกรรมและหัวข้อใน CLIR วัตถุประสงค์หลักของบทความนี้คือการตรวจสอบ
วรรณกรรมภายหลังจากการตรวจสอบโดย Oard และ Diekema และพยายามที่จะจัดระเบียบผลการวิจัยมาตั้งแต่
ช่วงกลางปี 1990 ในเขต CLIR จากจุดทางเทคนิคของมุมมอง เพื่อจุดประสงค์นี้ผลงานบางส่วนที่ระบุไว้ใน Oard
และ Diekema (1998) จะเรียกอีกครั้งในบทความนี้.
แต่ก็ควรจะตั้งข้อสังเกตว่าการตรวจสอบนี้ไม่สามารถที่ครอบคลุมอย่างสมบูรณ์เพราะมีขนาดใหญ่
จำนวนเอกสารใน CLIR ตีพิมพ์ในด้านการวิจัยต่างๆ . วัตถุประสงค์ที่นี่คือการให้ประโยชน์
แผนที่ของปัญหาทางเทคนิคของ CLIR มากกว่าอย่างกว้างขวางแจงเอกสารงานวิจัยที่เกี่ยวกับ CLIR บทความนี้
เป็นส่วนใหญ่ที่เกี่ยวข้องกับ '' ดึงเอกสาร '' หรือ '' ดึงข้อความ '' ปัญหา ตัวอย่างเช่น CLIR สำหรับมัลติมีเดีย
ข้อมูลที่อยู่นอกขอบเขตของเรา.
ส่วนที่เหลือของกระดาษที่มีการจัดระเบียบดังต่อไปนี้ ครั้งแรกในส่วนที่ 2 เราหารือเกี่ยวกับเทคนิคเพื่อให้ตรงกับการค้นหา
ข้อตกลงกับการแสดงเอกสารใน CLIR โดยเฉพาะอย่างยิ่งวิธีการต่างๆของการแปลงค่าจะ
อธิบาย ส่วนที่ 3 มีความมุ่งมั่นที่จะอธิบายเทคนิคบางอย่างสำหรับการแก้ปัญหาความคลุมเครือคำ
ที่อาจเกิดขึ้นในขั้นตอนของการแปล บางรุ่นอย่างเป็นทางการสำหรับ CLIR จะถูกนำมาใช้ในมาตรา 4
โดยเฉพาะอย่างยิ่งเราจะอธิบายการประยุกต์ใช้รูปแบบภาษา (LM) ซึ่งช่วยให้เราสามารถที่จะรวม
รูปแบบการดึงและรูปแบบการแปล ในมาตรา 5 CLIR ที่สำคัญอื่น ๆ หัวข้อการวิจัยที่จะกล่าวถึง:
วิธีการหมุนภาษา, การค้นหาของคอลเลกชันเอกสารพูดได้หลายภาษา, การรวมกันของภาษา
ทรัพยากรปัญหาในการประมวลผลของแต่ละภาษาส่วนติดต่อผู้ใช้สำหรับ CLIR โต้ตอบและการประเมินผลการ
CLIR สุดท้ายมาตรา 6 สั้น ๆ ถึงทิศทางในอนาคตของการวิจัย CLIR
การแปล กรุณารอสักครู่..

1 . บทนำ
ข้ามภาษาสืบค้น ( clir ) คือ สถานการณ์ที่ผู้ใช้พยายามที่จะหาชุดของเอกสารที่เขียนในภาษาหนึ่ง
สำหรับแบบสอบถามในภาษาอื่น ปัญหาของ clir ได้กล่าวถึง
สำหรับหลายทศวรรษ เป็นที่รู้จักกันอย่างแพร่หลาย งานวิจัย ความพยายามเพื่อพัฒนาเทคนิค clir สามารถ
ติดตามกลับไปเจอราร์ด Salton เป็นบทความในทศวรรษแรก ( เช่น Salton1970 ) .
โดยเฉพาะอย่างยิ่งหลังจากการมาถึงของเวิลด์ไวด์เว็บในปี 1990 , clir ได้กลายเป็นสิ่งสำคัญมากขึ้น
ช่วยให้ผู้ใช้สามารถเข้าถึงทรัพยากรข้อมูลที่เขียนในภาษาต่างๆบนอินเทอร์เน็ต ตั้งแต่นั้นมา
การวิจัยชุมชนและได้เริ่มที่จะแก้ไขปัญหาของ clir อย่างกว้างขวางและเข้มข้นแล้ว ปัจจุบัน ,ปัญหา clir addressed ในการประชุมเชิงปฏิบัติการทดลองดึงขนาดใหญ่ เช่น trec
กุญแจเสียง , และ ntcir . ตามที่อธิบายไว้ในกระดาษเบื้องต้น เรื่องนี้ แต่ละโรงมีความกังวล
ด้วยภาษาอื่นที่ไม่ใช่ภาษาอังกฤษดังนี้
trec : สเปน , จีน , เยอรมัน , ฝรั่งเศส , อิตาลี , และภาษาอาหรับ .
เคลฟ : ฝรั่งเศส , เยอรมัน , อิตาลี , สวีเดน , สเปน , ดัตช์ , ฟินแลนด์และรัสเซียมาก . .
ntcir :จีน ญี่ปุ่น และเกาหลี ต่าง ๆบน clir
ผลการวิจัยได้รับการรายงานในการประชุมของ trec Clef ntcir
, และ , และเอกสารมากมายได้ถูกตีพิมพ์ในวารสารทางวิทยาศาสตร์และกระบวนการ .
บทความนี้มีวัตถุประสงค์เพื่อทบทวนเทคนิคและวิธีการเพื่อเพิ่มประสิทธิภาพของ clir . แล้วเรา
มีตรวจสอบที่ครอบคลุมในหัวข้อนี้ ( oard & diekema , 1998 ) นอกจากนี้ปีเตอร์และเชอริแดน
( 2001 ) ครอบคลุมหลากหลายของวรรณกรรมและหัวข้อใน clir . วัตถุประสงค์หลักของบทความนี้คือเพื่อศึกษา
วรรณกรรมภายหลังการทบทวน โดย oard และ diekema และพยายามที่จะจัดระเบียบการตั้งแต่
ช่วงใน clir สนามจากจุดทางเทคนิคของมุมมอง สำหรับวัตถุประสงค์นี้ บางคนทำงานอยู่ใน oard
diekema ( 1998 ) และจะเรียกอีกในบทความนี้ .
แต่มันควรจะสังเกตว่าบทความนี้จะครอบคลุมทั้งหมดเพราะของจำนวนมากของเอกสารทาง clir
ตีพิมพ์ในพื้นที่ต่างๆในการวิจัย วัตถุประสงค์ที่นี่คือเพื่อให้แผนที่ที่เป็นประโยชน์
ของปัญหาทางเทคนิคของ clir มากกว่าอย่างกว้างขวาง enumerating งานวิจัยใน clir .
กระดาษนี้ส่วนใหญ่จะเกี่ยวข้องกับ ' 'document เรียก ' ' หรือ ' ' ' 'text การสืบค้นปัญหา ตัวอย่างเช่น clir สำหรับข้อมูลมัลติมีเดีย
อยู่ภายนอกขอบเขตของเรา .
ส่วนที่เหลือของกระดาษจะจัดดังนี้ ก่อน ในส่วนที่ 2 เราจะหารือเกี่ยวกับเทคนิคเพื่อให้ตรงกับเงื่อนไขสอบถาม
เอกสารเป็นตัวแทนใน clir . มากขึ้นโดยเฉพาะ วิธีการแปลเป็น
อธิบายส่วนที่ 3 คือทุ่มเทเพื่ออธิบายเทคนิคบางอย่างสำหรับการแก้ไขปัญหาระยะยาวใน
ซึ่งอาจจะเกิดขึ้นในกระบวนการของการแปล บางรุ่นอย่างเป็นทางการสำหรับ clir จะแนะนำในส่วนที่ 4 .
โดยเฉพาะ เราอธิบายการใช้ภาษาแบบ ( LM ) ซึ่งช่วยให้เราสามารถรวม
ดึงรูปแบบและการแปลแบบ ในส่วนที่ 5ที่สำคัญอื่น ๆ clir วิจัยหัวข้ออภิปราย :
ภาษาแกนวิธีการค้นหาของคอลเลกชันเอกสารหลายภาษา , การรวมกันของทรัพยากรภาษา
, ปัญหาในการประมวลผลของแต่ละภาษา ส่วนติดต่อผู้ใช้สำหรับ clir การโต้ตอบและการประเมินผล
clir . ในที่สุด , มาตรา 6 สั้น ๆกล่าวถึงทิศทางการวิจัยในอนาคต
clir .
การแปล กรุณารอสักครู่..
