5.4.4. Stemming
Porters algorithm (Porter, 1980) is widely used to stem English words in IR. Although effectiveness
of normalization by stemming for English monolingual IR has not yet been shown explicitly
(Frakes, 1992), in the case of morphologically rich or lexically complex languages other than English, it
seems that the use of stemmers brings about greater improvement of retrieval performance (Savoy,
2003b; Sheridan & Ballerini, 1996). For CLIR task in which matching operations between terms of different
languages are needed at various stages of processing, the development of effective stemmers is certainly
important to enhance search performance. We can obtain a number of rule-based stemmers for European
languages from Porters SNOWBALL project (http://snowball.tartarus.org/), in which Porter (2001) provides
an excellent description of the components which are essential in the creation of a good rule-based
stemmer.
Oard, Levow, and Cabezas (2001) employed a four-stage ‘‘backoff translation’’ for locating a term within
a translation lexicon, in which four matching operations are performed: (1) matching of the surface
form of a term to surface forms of headwords in the lexicon, (2) matching of the stem of a term to surface
forms of headwords, (3) matching of the surface form of a term to stems of headwords, (4) matching of the
stem of a term to stems of headwords.
In addition, Oard et al. (2001) have proposed a ‘‘statistical stemming’’ approach in order to automatically
extract information on suffixes from a text collection. This approach can be taken as a special case of
unsupervised acquisition of morphology in the field of computational linguistics (Oard et al., 2001).
5.5. User interfaces for interactive CLIR
Although most of the research literature on CLIR implicitly treats the search as a task to be performed
automatically by a machine, a practical approach for providing better search results would be to develop
systems in which humans and machines interact (Oard, 2001, p. 58). In order to accomplish better interactive
CLIR, a well-designed user interface would play an important role. An early interactive CLIR system
for English–Spanish, QUILT, accommodates some functions and GUI for supporting query translation
(Davis & Ogden, 1997):
• Options for displaying the query translation terms from a bilingual lexicon.
• Pop-up windows that show the retrieved Spanish document with translated Spanish query terms
highlighted.
• A Pop-up window that shows the variant translations of each English term.
QUILT also seems to have a feature that displays English gloss translations of Spanish documents retrieved
by the system. A more recent version of QUILT was described by Davis and Ogden (2000). Some
other systems have been developed such as FromTo-CLIR (Kim et al., 1999), MULINEX (Capstick et al.,
2000) and so on. Peters and Sheridan (2001) also listed several working CLIR systems.
In CLEF-2001, a challenging track for exploring interactive applications of CLIR, iCLEF, was included.
The track was concerned with current technology for supporting interactive relevance assessment, and several
research groups participated (Oard & Gonzalo, 2002). The interactive CLLR track has been continued
in following CLEF campaigns.
K. Kishida / Information Processing and Management 41 (2005) 433–455 449
5.6. Evaluation of CLIR
In order to develop better techniques or methods for automatic or interactive CLIR, a continuing sequence
of experimental evaluations is indispensable. From this viewpoint, we must admire the efforts of
TREC, CLEF and NTCIR and their huge contributions toward significantly promoting and enhancing
CLIR research. Descriptions of the systems and findings of these retrieval experiments can be found in
the working notes and proceedings of these activities.
Many techniques described in this article were proposed and experimentally tested in the campaigns
organized by these three initiatives. Very useful research findings on the performance of the CLIR techniques
have been cumulated through the evaluation process. Unfortunately, the provision of details of performance
levels is outside the scope of this review.
Methodology used for evaluation is also an important topic for CLIR research. Standard Cranfield-type
methods have been basically used to assess CLIR experiments in TREC, CLEF and NTCIR. However, it
should be noted that CLIR experiments have a unique characteristic, that is, the performance of search
runs executed using queries in the language of document collections can be employed as a baseline for
the evaluation. For example, results of English to Japanese CLIR runs can be evaluated by comparing them
with those of Japanese monolingual runs if corresponding Japanese queries are correctly prepared by
human translators. We can usually assume that the monolingual runs give us an upper limit of performance.
The overviews of the TREC, CLEF and NTCIR, and the introductory paper of this special issue
provide us with more useful information on evaluation methodologies for CLIR tasks.
6. Concluding remarks: future directions for research
Through a review of the literature, this paper has described research issues on CLIR and discussed various
techniques that can be adopted. As mentioned in the introduction, this review does not cover all research
works. A number of papers or articles on CLIR not referred to in this review have been published in various
research fields and communities. We can cite Oard and Dorr (1996), Oard and Diekema (1998), Peters and
Sheridan (2001), and Fujii and Ishikawa (2001) as sources for identifying additional papers.
The last issue we should discuss is the future direction of CLIR research. What is the goal of CLIR?
What should the next steps be to achieve the goal? In the workshop on CLIR held at SIGIR 2002, the
organizers presented three challenges (Gey, Kando, & Peters, 2002):
1. Where to get resources for resource-poor languages?
2. Why do we not have a sizeable Web corpus in multiple languages?
3. Why arent search engines using our research?
As a possible answer for the third question, they stated that ‘‘if users are presented with a ranked list of
documents that they cannot read, what is the utility?’’ This is a crucial point for considering the future
direction of CLIR research. That is, we may need to make a plan after having a clear grasp of information
needs of users on CLIR and explicitly delineating realistic utility when applications of CLIR are employed
by the actual users.
Meanwhile, various interesting areas for CLIR research seem to remain, e.g., CLIR for multimedia data,
cross-language question answering, cross-language filtering, cross-language topic detection and tracking,
cross-language summarization, cross-language document clustering, and so on. This review article cannot
cover all the state-of-the-art research in these areas where substantive research has already been performed.
The CLIR researchers may have to carefully select future directions from many possibilities in order to enable
the actual users to effectively and efficiently satisfy their information needs.
5.4.4 การกำลังอย่างกว้างขวางมีใช้อัลกอริทึม s กระเป๋า (กระเป๋า 1980) การเกิดภาษาอังกฤษคำใด ถึงแม้ว่าประสิทธิภาพของฟื้นฟูโดยประเทศสำหรับ IR monolingual อังกฤษได้ไม่ยังถูกแสดงให้เห็นอย่างชัดเจน(Frakes, 1992) กรณี morphologically รวย หรือ lexically ซับซ้อนภาษาต่างภาษาอังกฤษ มันดูเหมือน ว่า การใช้ stemmers นำเกี่ยวกับการปรับปรุงมากกว่าผลเรียก (ซาวอย2003b เชอ & Ballerini, 1996) สำหรับงาน CLIR ในการดำเนินงานที่ตรงกันระหว่างเงื่อนไขแตกต่างกันภาษามีความจำเป็นในขั้นตอนต่าง ๆ ของการประมวลผล การพัฒนาของ stemmers มีประสิทธิภาพเป็นที่แน่นอนสิ่งสำคัญที่จะเพิ่มประสิทธิภาพการค้นหา เราจะได้รับจำนวนตามกฎ stemmers ในยุโรปภาษาจากกระเป๋า s ก้อนหิมะโครงการ (http://snowball.tartarus.org/), กระเป๋า (2001) ให้คำอธิบายที่ดีของส่วนประกอบที่มีความสำคัญในการสร้างดีตามกฎstemmerOard, Levow และ Cabezas (2001) ลูกจ้าง 4 ขั้น '' backoff แปล '' ในการค้นหาคำในพจนานุกรมแปล ที่สี่ตรงมีดำเนินงาน: (1) การจับคู่ของพื้นผิวรูปแบบของเงื่อนไขการพื้นผิวแบบ headwords ในปทานุกรม จับคู่ต้นกำเนิดของคำว่าพื้นผิว (2)รูปแบบของ headwords, (3) การจับคู่คำกับลำต้นของ headwords แบบพื้นผิว (4) การจับคู่ของต้นกำเนิดของคำการลำ headwordsนอกจากนี้ Oard et al. (2001) ได้เสนอวิธี ''ประเทศสถิติ '' เพื่อโดยอัตโนมัติดึงข้อมูลในส่วนต่อท้ายจากชุดข้อความ วิธีการนี้สามารถนำมาเป็นกรณีพิเศษซื้อ unsupervised ของสัณฐานวิทยาด้านภาษาศาสตร์เชิงคำนวณ (Oard et al., 2001)5.5 ผู้ใช้อินเทอร์เฟซสำหรับ CLIR แบบโต้ตอบแม้ว่าส่วนใหญ่ของเอกสารประกอบการวิจัยใน CLIR นัยปฏิบัติการค้นหาเป็นงานที่จะดำเนินการโดยอัตโนมัติ โดยเครื่อง วิธีการปฏิบัติสำหรับการให้ผลลัพธ์การค้นหาดีกว่าจะพัฒนาระบบที่มนุษย์และเครื่องจักรติดต่อ (Oard, 2001, p. 58) การทำดีแบบโต้ตอบCLIR ผู้ออกแบบที่ดีจะเล่นมีบทบาทสำคัญ ระบบ CLIR แบบโต้ตอบก่อนสำหรับภาษาอังกฤษสเปน ควิลท์ รองรับฟังก์ชันบางและ GUI เพื่อสนับสนุนการแปลแบบสอบถาม(Davis & Ogden, 1997):•การเลือกสำหรับการแสดงคำแปลแบบสอบถามจากพจนานุกรมสองภาษา•ป๊อปอัพที่แสดงเงื่อนไขแบบสอบถามภาษาสเปนแปลเอกสารสเปนดึงข้อมูลเน้นการ•หน้าต่างที่แสดงการแปลคำภาษาอังกฤษแต่ละตัวแปรควิลท์ยังน่าจะ มีคุณลักษณะที่แสดงเงาภาษาอังกฤษแปลเอกสารภาษาสเปนที่เรียกโดยระบบการ รุ่นล่าสุดของควิลท์ถูกอธิบาย โดย Davis และ Ogden (2000) บางระบบอื่น ๆ ได้รับการพัฒนาเช่น FromTo-CLIR (Kim et al., 1999), MULINEX (Capstick et al.,2000) และ Peters และเชอ (2001) แสดงระบบ CLIR ทำงานต่าง ๆติดตามท้าทายในโปรแกรมประยุกต์แบบโต้ตอบของ CLIR, iCLEF ไม่รวมใน CLEF-2001ติดตามเกี่ยวข้องกับเทคโนโลยีในปัจจุบันเพื่อสนับสนุนการประเมินเกี่ยวข้องแบบโต้ตอบ และหลายกลุ่มวิจัยร่วม (Oard & Gonzalo, 2002) ติดตาม CLLR โต้ตอบได้รับอย่างต่อเนื่องตอนเสริม CLEFคุณ Kishida / ประมวลผลข้อมูลและการจัดการ 41 (2005) 433-455 4495.6 การประเมิน CLIRการพัฒนาเทคนิคหรือวิธีการที่ดีสำหรับ CLIR แบบอัตโนมัติ หรือแบบโต้ตอบ ลำดับต่อเนื่องของการทดลองประเมินเป็นสำคัญ จากมุมนี้ เราต้องชื่นชมความพยายามของTREC, CLEF และ NTCIR และผลงานของพวกเขาใหญ่ไปทางส่งเสริมอย่างมีนัยสำคัญและเพิ่มงานวิจัย CLIR คำอธิบายของระบบและค้นพบการทดลองเรียกเหล่านี้สามารถพบได้ในหมายเหตุการทำงานและวิชาการกิจกรรมเหล่านี้เทคนิคต่าง ๆ ที่อธิบายไว้ในบทความนี้ได้นำเสนอ และทดสอบ experimentally ในการส่งเสริมการขายจัด โดยโครงการเหล่านี้สาม พบมีประโยชน์มากเกี่ยวกับประสิทธิภาพของเทคนิค CLIRมีการสะสมผ่านการประเมิน อับ จัดรายละเอียดของประสิทธิภาพการทำงานระดับที่อยู่นอกขอบเขตของบทความนี้วิธีใช้สำหรับการประเมินก็เป็นหัวข้อสำคัญสำหรับการวิจัย CLIR Cranfield ชนิดมาตรฐานใช้วิธีการประเมินทดลอง CLIR TREC, CLEF และ NTCIR โดยทั่วไป อย่างไรก็ตาม มันควรตั้งข้อสังเกตว่า การทดลองของ CLIR มีลักษณะเฉพาะ คือ ประสิทธิภาพของการค้นหาดำเนินการโดยใช้แบบสอบถามในชุดเอกสารการทำงานสามารถทำงานเป็นพื้นฐานสำหรับการประเมินผลการ ตัวอย่าง สามารถประเมินผลลัพธ์ของอังกฤษ CLIR ญี่ปุ่นทำงาน โดยการเปรียบเทียบกับญี่ปุ่น monolingual ทำงานถ้าถามตรงญี่ปุ่นกำลังเตรียมอย่างถูกต้องโดยนักแปลคนนั้น โดยปกติเราสามารถสมมติว่า ทำ monolingual ให้เป็นขีดจำกัดของประสิทธิภาพภาพรวมของการ TREC, CLEF และ NTCIR และกระดาษเกริ่นนำของปัญหาพิเศษให้เรา ด้วยวิธีการประเมินผลข้อมูลเป็นประโยชน์มากขึ้นสำหรับงาน CLIR6. สรุปหมายเหตุ: ทิศทางในอนาคตสำหรับการวิจัยผ่านการตรวจสอบของวรรณคดี กระดาษนี้มีอธิบายประเด็นวิจัยใน CLIR และอธิบายต่าง ๆเทคนิคต่าง ๆ ที่สามารถนำมาใช้ ดังกล่าวในบทนำ บทความนี้ครอบคลุมงานวิจัยทั้งหมดทำงาน จำนวนเอกสารหรือบทความบน CLIR ที่ไม่อ้างอิงถึงในบทความนี้ได้ถูกเผยแพร่ทางเขตข้อมูลวิจัยและชุมชน เราสามารถอ้างอิง Oard และ Dorr (1996), Oard และ Diekema (1998), Peters และเชอริแดน (2001), และฟูจิอิ และอิ (2001) เป็นแหล่งสำหรับการระบุเอกสารเพิ่มเติมปัญหาสุดท้ายที่เราควรคุยตกลงเป็นทิศทางในอนาคตของงานวิจัย CLIR เป้าหมายของ CLIR คืออะไรอะไรขั้นต่อไปควรจะ บรรลุเป้าหมายหรือไม่ ในการประชุมเชิงปฏิบัติการในบริเวณ SIGIR 2002, CLIRยกนำเสนอความท้าทายที่สาม (Gey, Kando, & Peters, 2002):1. ตำแหน่งที่จะได้รับทรัพยากรสำหรับทรัพยากรต่ำภาษา2. ทำไมเราไม่มีเป็นคอร์พัสคริเว็บสำหรับผู้พิการในหลายภาษา3. ศศภอ t ทำไมค้นเครื่องยนต์ที่ใช้งานวิจัยของเราเป็นคำตอบที่เป็นไปได้สำหรับคำถามที่สาม พวกเขากล่าวที่ '' ถ้าผู้ใช้จะนำเสนอรายการจัดอันดับเอกสารที่พวกเขาไม่สามารถอ่าน โปรแกรมอรรถประโยชน์คืออะไร?'' นี้เป็นจุดสำคัญสำหรับการพิจารณาในอนาคตทิศทางงานวิจัย CLIR นั่นคือ เราอาจต้องทำแผนหลังจากที่มีความเข้าใจที่ชัดเจนของข้อมูลความต้องการของผู้ใช้ CLIR และ delineating ยูทิลิตี้จริงอย่างชัดเจนเมื่อใช้ CLIR เป็นลูกจ้างโดยผู้ใช้จริงในขณะเดียวกัน พื้นที่น่าสนใจต่าง ๆ สำหรับงานวิจัยของ CLIR ดูเหมือนจะ ยังคงอยู่ เช่น CLIR สำหรับข้อมูลมัลติมีเดียตอบคำถามข้ามภาษา กรองข้ามภาษา ภาษาข้ามหัวข้อตรวจสอบ และ ติดตามสรุปข้ามภาษา คลัสเตอร์เอกสารข้ามภาษา และอื่น ๆ บทความนี้ทบทวนไม่ครอบคลุมงานวิจัยทันสมัยทั้งหมดในพื้นที่เหล่านี้ที่เราวิจัยแล้วดำเนินการCLIR นักวิจัยอาจต้องระมัดระวังเลือกทิศทางในอนาคตจากไปมากมายเพื่อเปิดใช้งานผู้ใช้จริงเพื่อตอบสนองความต้องการข้อมูลอย่างมีประสิทธิภาพ และมีประสิทธิภาพ
การแปล กรุณารอสักครู่..

5.4.4 กั้น
พอร์เตอร์? s อัลกอริทึม (พอร์เตอร์ 1980) ถูกนำมาใช้กันอย่างแพร่หลายในต้นกำเนิดคำภาษาอังกฤษใน IR แม้ว่าประสิทธิภาพ
ของการฟื้นฟูที่เกิดจากภาษาอังกฤษภาษาเดียว IR ยังไม่ได้แสดงให้เห็นอย่างชัดเจน
(Frakes, 1992) ในกรณีของภาษา morphologically ที่อุดมไปด้วยหรือซับซ้อน lexically อื่นนอกจากภาษาอังกฤษก็
ดูเหมือนว่าการใช้ stemmers นำเกี่ยวกับการปรับปรุงประสิทธิภาพการทำงานที่มากขึ้นของการดึง (ซาวอย
2003b; เชอริแดนและ Ballerini, 1996) สำหรับงาน CLIR ซึ่งในการดำเนินงานการจับคู่ระหว่างแง่ของการที่แตกต่างกัน
ภาษาที่มีความจำเป็นในขั้นตอนต่างๆของการประมวลผลการพัฒนาที่มีประสิทธิภาพ stemmers แน่นอน
สิ่งสำคัญที่จะเพิ่มประสิทธิภาพการค้นหา เราสามารถได้จำนวน stemmers ตามกฎยุโรป
ภาษาจากพอร์เตอร์? โครงการก้อนหิมะ (http://snowball.tartarus.org/) ซึ่งพอร์เตอร์ (2001) ให้
คำอธิบายที่ดีของชิ้นส่วนที่มีความจำเป็นในการ สร้างตามกฎที่ดี
. Stemmer
Oard, Levow และ Cabezas (2001) การจ้างงานขั้นตอนที่สี่ '' backoff แปล '' สำหรับตำแหน่งภายในระยะ
พจนานุกรมแปลซึ่งในการดำเนินงานที่ตรงกับสี่จะดำเนินการดังนี้ (1) การจับคู่ ของพื้นผิว
รูปแบบของระยะไปยังพื้นผิวรูปแบบของ headwords ในพจนานุกรม (2) การจับคู่ของต้นกำเนิดของคำที่ปรากฏ
ในรูปแบบของ headwords (3) การจับคู่ของรูปแบบพื้นผิวของระยะเพื่อลำต้นของ headwords (4 ) การจับคู่ของ
ลำต้นยาวเพื่อลำต้นของ headwords.
นอกจากนี้ Oard et al, (2001) ได้เสนอ '' สถิติ 'เกิด' วิธีการในการสั่งซื้อโดยอัตโนมัติ
ดึงข้อมูลเกี่ยวกับคำต่อท้ายจากการเก็บข้อความ วิธีการนี้สามารถนำมาเป็นกรณีพิเศษของ
การเข้าซื้อกิจการของสัณฐานใกล้ชิดในด้านภาษาศาสตร์ (Oard et al., 2001).
5.5 อินเตอร์เฟซผู้ใช้แบบโต้ตอบ CLIR
แม้ว่าส่วนใหญ่ของงานวิจัยใน CLIR โดยปริยายถือว่าค้นหาเป็นงานที่จะดำเนินการ
โดยอัตโนมัติโดยเครื่อง, วิธีการปฏิบัติในการให้ผลการค้นหาที่ดีกว่าจะได้รับการพัฒนา
ระบบในการที่มนุษย์และเครื่องจักรที่มีปฏิสัมพันธ์ (Oard, 2001, น. 58) เพื่อให้บรรลุการโต้ตอบที่ดีกว่า
CLIR, อินเตอร์เฟซที่ใช้การออกแบบที่ดีจะมีบทบาทสำคัญ ระบบ CLIR โต้ตอบต้น
สำหรับภาษาอังกฤษเป็นภาษาสเปน, ผ้านวม, รองรับฟังก์ชั่นบางอย่างและ GUI สำหรับการสนับสนุนการแปลแบบสอบถาม
(เดวิสและอ็อกเดน 1997):
•ตัวเลือกสำหรับการแสดงแง่แปลแบบสอบถามจากศัพท์ภาษา.
•หน้าต่าง Pop-up ที่แสดง ดึงเอกสารภาษาสเปนที่มีการแปลข้อความค้นหาสเปน
เน้น.
•หน้าต่าง Pop-up ที่แสดงให้เห็นการแปลที่แตกต่างของแต่ละคำภาษาอังกฤษ.
QUILT ยังดูเหมือนว่าจะมีคุณสมบัติที่แสดงคำแปลภาษาอังกฤษมันวาวของเอกสารสเปนดึงมา
จากระบบ รุ่นล่าสุดของ QUILT ถูกอธิบายโดยเดวิสและเดน (2000) บาง
ระบบอื่น ๆ ได้รับการพัฒนาเช่น FromTo-CLIR (Kim et al., 1999) MULINEX (Capstick et al.,
2000) และอื่น ๆ ปีเตอร์สและเชอริแดน (2001) ของ บริษัท จดทะเบียนยังมีหลายระบบการทำงาน CLIR.
ใน Clef-2001, แทร็คที่ท้าทายสำหรับการสำรวจการใช้งานการโต้ตอบของ CLIR, iCLEF ถูกรวม.
การติดตามที่เกี่ยวข้องกับเทคโนโลยีในปัจจุบันเพื่อรองรับการประเมินความเกี่ยวข้องโต้ตอบและหลาย
กลุ่มวิจัย เข้าร่วม (Oard และกอนซาโล่, 2002) ติดตาม Cllr โต้ตอบได้รับการอย่างต่อเนื่อง
ต่อไปในแคมเปญ Clef.
เค Kishida / ข้อมูลการประมวลผลและการจัดการ 41 (2005) 433-455 449
5.6 การประเมินผลการ CLIR
เพื่อที่จะพัฒนาเทคนิคที่ดีกว่าหรือวิธีการสำหรับการ CLIR อัตโนมัติหรือแบบโต้ตอบลำดับอย่างต่อเนื่อง
ของการประเมินผลการทดลองจะขาดไม่ได้ จากมุมมองนี้เราต้องชื่นชมความพยายามของ
TREC, โน๊ตและ NTCIR และผลงานของพวกเขาที่มีต่อขนาดใหญ่อย่างมีนัยสำคัญการส่งเสริมและเสริมสร้าง
การวิจัย CLIR รายละเอียดของระบบและผลของการทดลองดึงเหล่านี้สามารถพบได้ใน
บันทึกการทำงานและการดำเนินการของกิจกรรมเหล่านี้.
เทคนิคหลายคนอธิบายไว้ในบทความนี้นำเสนอการทดลองและทดสอบในแคมเปญ
ที่จัดขึ้นโดยทั้งสามความคิดริเริ่ม มีประโยชน์มากผลการวิจัยเกี่ยวกับประสิทธิภาพของเทคนิค CLIR
ได้รับการสะสมผ่านขั้นตอนการประเมินผล แต่น่าเสียดายที่การให้รายละเอียดของการปฏิบัติงาน
ในระดับที่อยู่นอกขอบเขตของการตรวจสอบนี้.
วิธีการที่ใช้ในการประเมินผลยังเป็นหัวข้อสำคัญสำหรับการวิจัย CLIR มาตรฐาน Cranfield ชนิด
วิธีการได้ถูกนำมาใช้โดยทั่วไปในการประเมินการทดลองใน CLIR TREC, โน๊ตและ NTCIR แต่ก็
ควรจะตั้งข้อสังเกตว่าการทดลอง CLIR มีลักษณะที่ไม่ซ้ำกันที่มีประสิทธิภาพของการค้นหา
วิ่งดำเนินการโดยใช้คำสั่งในภาษาของคอลเลกชันเอกสารสามารถใช้เป็นพื้นฐานสำหรับ
การประเมินผล ตัวอย่างเช่นผลของภาษาอังกฤษวิ่ง CLIR ญี่ปุ่นสามารถประเมินโดยเปรียบเทียบ
กับผู้ที่ทำงานเดียวญี่ปุ่นถ้าคำสั่งที่สอดคล้องกันของญี่ปุ่นมีการจัดทำอย่างถูกต้องโดย
นักแปลของมนุษย์ เรามักจะสามารถสรุปได้ว่าการทำงานเดียวให้เราขีด จำกัด บนของผลการดำเนินงาน.
ภาพรวมของ TREC, โน๊ตและ NTCIR และกระดาษเบื้องต้นของปัญหาพิเศษนี้
ให้เรามีข้อมูลที่เป็นประโยชน์เพิ่มเติมเกี่ยวกับวิธีการประเมินผลงาน CLIR.
6 หมายเหตุการประชุม: ทิศทางในอนาคตสำหรับการวิจัย
ผ่านการทบทวนวรรณกรรมบทความนี้ได้อธิบายประเด็นการวิจัยเกี่ยวกับ CLIR และพูดคุยต่างๆ
เทคนิคที่สามารถจะนำมาใช้ เป็นที่กล่าวถึงในการแนะนำการตรวจสอบนี้ไม่ได้ครอบคลุมทุกการวิจัย
ผลงาน จำนวนเอกสารหรือบทความเกี่ยวกับ CLIR ไม่ได้อ้างถึงในการตรวจสอบนี้ได้รับการตีพิมพ์ในหลาย ๆ ด้าน
สาขาการวิจัยและชุมชน เราสามารถยก Oard และ Dorr (1996), และ Oard Diekema (1998), ปีเตอร์สและ
เชอริแดน (2001) และ Fujii และอิชิกาวะ (2001) เป็นแหล่งที่มาสำหรับการระบุเอกสารเพิ่มเติม.
ประเด็นสุดท้ายที่เราควรจะหารือเกี่ยวกับการเป็นทิศทางในอนาคตของ CLIR การวิจัย เป้าหมายของ CLIR คืออะไร
สิ่งที่ควรทำตามขั้นตอนต่อไปจะมีการบรรลุเป้าหมายหรือไม่ ในการประชุมเชิงปฏิบัติการเกี่ยวกับการ CLIR จัดขึ้นที่ SIGIR 2002
การจัดงานนำเสนอความท้าทายที่สาม (Gey, Kando และปีเตอร์ส, 2002):
1 ที่จะได้รับทรัพยากรสำหรับภาษาที่ยากจน?
2 ทำไมเราไม่ได้มีคลังเว็บใหญ่ในหลายภาษา?
3 ทำไมศศภอ t? เครื่องมือค้นหาโดยใช้การวิจัยของเราหรือไม่
ในฐานะที่เป็นคำตอบที่เป็นไปได้สำหรับคำถามที่สามพวกเขากล่าวว่า '' ถ้าผู้ใช้นั้นจะมีรายชื่อการจัดอันดับของ
เอกสารที่พวกเขาไม่สามารถอ่านสิ่งที่เป็นยูทิลิตี้? '' นี่คือสิ่งสำคัญ จุดสำหรับการพิจารณาในอนาคต
ทิศทางการวิจัย CLIR นั่นก็คือเราอาจจะต้องทำแผนหลังจากที่มีความเข้าใจที่ชัดเจนของข้อมูล
ความต้องการของผู้ใช้ใน CLIR อย่างชัดเจนและโทบี้ยูทิลิตี้จริงเมื่อการใช้งานของ CLIR ที่ถูกว่าจ้าง
โดยผู้ใช้ที่เกิดขึ้นจริง.
ในขณะเดียวกันพื้นที่ที่น่าสนใจต่างๆสำหรับการวิจัย CLIR ดูเหมือนจะยังคงอยู่ เช่น CLIR ข้อมูลมัลติมีเดีย
ข้ามภาษาตอบคำถามกรองข้ามภาษาข้ามภาษาการตรวจสอบหัวข้อและการติดตาม
การสรุปข้ามภาษาการจัดกลุ่มเอกสารข้ามภาษาและอื่น ๆ บทความรีวิวนี้ไม่สามารถ
ครอบคลุมทุกการวิจัยรัฐของศิลปะในพื้นที่เหล่านี้ที่การวิจัยที่สำคัญได้รับการดำเนินการ.
นักวิจัย CLIR อาจจะต้องระมัดระวังเลือกทิศทางในอนาคตจากการเป็นไปได้มากในการที่จะช่วยให้
ผู้ใช้จริงได้อย่างมีประสิทธิภาพและมีประสิทธิภาพ ตอบสนองความต้องการข้อมูลของพวกเขา
การแปล กรุณารอสักครู่..

5.4.4 . พอร์เตอร์ (
s Algorithm ( Porter , 1980 ) ที่ใช้กันอย่างแพร่หลายไปยังต้นกำเนิดคำภาษาอังกฤษใน IR แม้ว่าประสิทธิผล
บรรทัดฐานโดยกั้นภาษาอังกฤษใช้ IR ได้ไม่ได้ถูกแสดงอย่างชัดเจน
( เฟรกส์ , 2535 ) ในกรณีของจากคนรวยหรือ lexically ซับซ้อนภาษาอื่นนอกจากภาษาอังกฤษ ครับผมดูเหมือนว่าการใช้ stemmers นำมากกว่าการปรับปรุงประสิทธิภาพของการสืบค้น ( Savoy ,
2003b ; เชอริแดน& ballerini , 1996 ) สำหรับ clir งานที่ตรงกับการดำเนินงานระหว่าง แง่ของภาษาที่แตกต่างกัน
เป็นขั้นตอนต่างๆของกระบวนการ การพัฒนาประสิทธิภาพ stemmers อย่างแน่นอน
ที่สำคัญเพื่อเพิ่มประสิทธิภาพการค้นหาเราสามารถได้รับจำนวนของกฎ stemmers ยุโรป
ภาษาจาก Porter s Snowball โครงการ ( http : / / หิมะ ทาร์ทารัส . org / ) ซึ่งใน พอร์เตอร์ ( 2001 ) ให้มีรายละเอียดที่ยอดเยี่ยมของ
ส่วนประกอบที่จำเป็นในการสร้างของกฎ
oard โหลดดี levow , และ , cabezas ( 2001 ) ใช้สี่เวที ' 'backoff แปล ' ' เพื่อค้นหาคำภายใน
การแปลพจนานุกรม ซึ่งสี่ตรงกับการดำเนินการจะดำเนินการ ( 1 ) การจับคู่พื้นผิว
แบบฟอร์มระยะพื้นผิวรูปแบบของ headwords ในพจนานุกรม ( 2 ) การจับคู่ของก้านของระยะพื้นผิว
รูปแบบของ headwords ( 3 ) การจับคู่พื้นผิวรูปแบบของคําลํา headwords ( 4 ) การจับคู่ของ
ก้านของคำต้นของ headwords .
นอกจากนี้ oard et al .( 2001 ) ได้เสนอ ' 'statistical กั้น ' ' วิธีการเพื่อโดยอัตโนมัติสกัดข้อมูล
ต่อท้ายจากข้อความคอลเลกชัน วิธีการนี้สามารถนำมาเป็นกรณีพิเศษ
ซื้อ unsupervised ของสัณฐานวิทยาในสาขาภาษาศาสตร์ ( oard et al . , 2001 ) .
5.5 . ส่วนติดต่อผู้ใช้แบบโต้ตอบ clir
สำหรับถึงแม้ว่าส่วนใหญ่ของงานวิจัยใน clir โดยปริยายถือว่าการค้นหางานที่จะปฏิบัติ
โดยอัตโนมัติโดยเครื่อง วิธีการปฏิบัติในการให้ผลลัพธ์การค้นหาที่ดีกว่าจะพัฒนา
ในระบบ ซึ่งมนุษย์และเครื่องจักรโต้ตอบ ( oard , 2001 , หน้า 58 ) เพื่อให้บรรลุดีกว่า
clir โต้ตอบ , อินเตอร์เฟซผู้ใช้ที่ดี ที่จะมีบทบาทสำคัญต้นแบบระบบ clir
สำหรับภาษาอังกฤษและสเปน , ผ้าห่ม , รองรับฟังก์ชันและ GUI เพื่อสนับสนุนแบบสอบถามแปล
( เดวิส&เดน , 1997 ) :
- ตัวเลือกสำหรับการแสดงผลแบบสอบถามแปลเงื่อนไขจากพจนานุกรมสองภาษา .
- ป๊อปอัพหน้าต่างที่แสดงในเอกสารแปลแบบสอบถามด้านภาษาสเปนภาษาสเปน
เน้น
- ป๊อปอัพหน้าต่างที่แสดงการแปลตัวแปรของแต่ละภาษาอังกฤษ . .
ผ้าห่มยังดูเหมือนจะมีคุณลักษณะที่แสดงเงาภาษาอังกฤษแปลเอกสารภาษาสเปนเรียก
โดยระบบ รุ่นล่าสุดของผ้าห่มถูกอธิบายโดย เดวิส และ เดน ( 2000 ) บาง
ระบบอื่น ๆได้รับการพัฒนา เช่น fromto clir ( Kim et al . , 1999 ) mulinex ( capstick et al . ,
2 ) และปีเตอร์และเชอริแดน ( 2001 ) ยังแสดงระบบการทำงาน clir หลาย .
ใน clef-2001 , ติดตามความท้าทายสำหรับการสำรวจการใช้งานแบบโต้ตอบของ clir iclef , มี .
ติดตามได้เกี่ยวข้องกับเทคโนโลยีในปัจจุบัน เพื่อรองรับการประเมินความเกี่ยวข้องเชิงโต้ตอบ และกลุ่มงานวิจัยหลาย
มีส่วนร่วม ( oard &กอนซาโล่ , 2002 ) การโต้ตอบ cllr ได้รับอย่างต่อเนื่อง
ติดตามในการติดตามแคมเปญกุญแจเสียง .
K . คิชิดะ / การประมวลผลข้อมูลและการจัดการ 41 ( 2005 ) 433 – 455 449
5.6 . การประเมิน clir
เพื่อพัฒนาดีขึ้น เทคนิคหรือวิธีการอัตโนมัติหรือโต้ตอบ clir อย่างต่อเนื่องเป็นลำดับ
, ทดสอบทดลองที่ขาดไม่ได้ จากมุมมองนี้เราต้องชื่นชมความพยายามของ trec
,กุญแจเสียง ntcir และผลงานที่มีขนาดใหญ่และมีการส่งเสริมและพัฒนางานวิจัย clir
. คำอธิบายของระบบและข้อมูลการทดลองของระบบเหล่านี้สามารถพบได้ในงานบันทึกและรายงานการประชุม
กิจกรรมเหล่านี้ หลายเทคนิคที่อธิบายไว้ในบทความนี้ได้เสนอการทดลองและทดสอบในแคมเปญ
จัดโดยทั้งสามดอลลาร์ที่มีประโยชน์มาก งานวิจัยเกี่ยวกับประสิทธิภาพของเทคนิค clir
ได้รับการสะสมผ่านกระบวนการประเมินผล ขออภัย การให้รายละเอียดของการปฏิบัติ
ระดับภายนอกขอบเขตของรีวิวนี้ วิธีการที่ใช้ในการประเมิน
ยังเป็นหัวข้อสำคัญสำหรับการวิจัย clir . มาตรฐาน cranfield ประเภท
วิธีการได้รับการใช้โดยทั่วไปเพื่อประเมินการทดลองใน trec clir ,กุญแจเสียง และ ntcir . แต่มันควรจะสังเกตว่า clir
การทดลองมีลักษณะ เฉพาะตัว ที่ ประสิทธิภาพของการค้นหา
วิ่งดำเนินการใช้แบบสอบถามในภาษาของคอลเลกชันของเอกสารที่สามารถใช้เป็นฐานสำหรับ
การประเมิน ตัวอย่างเช่น ผลภาษาอังกฤษจะวิ่ง clir ญี่ปุ่นสามารถประเมินโดยการเปรียบเทียบ
ที่ญี่ปุ่นถ้าแบบสอบถามภาษาญี่ปุ่นที่ใช้เรียกอย่างถูกต้องเตรียมโดย
แปลภาษามนุษย์ เรามักจะสันนิษฐานว่า จะใช้ให้เราขีด จำกัด บนของประสิทธิภาพ .
ภาพรวมของ trec Clef ntcir , และ , และกระดาษเบื้องต้น
ฉบับพิเศษนี้ให้กับเรา ด้วยข้อมูลที่เป็นประโยชน์เพิ่มเติมเกี่ยวกับวิธีการประเมินผลงาน clir .
6สรุปข้อสังเกต : ทิศทางในอนาคตสำหรับการวิจัย
ผ่านการทบทวนวรรณกรรม บทความนี้ได้อธิบายประเด็นการวิจัยใน clir และกล่าวถึงเทคนิคต่างๆ
ที่สามารถนำมาใช้ ดังกล่าวในเบื้องต้น ตรวจสอบนี้ไม่ครอบคลุมถึงผลงานวิจัย
ทั้งหมด หมายเลขของเอกสารหรือบทความใน clir ไม่ได้อ้างถึงในบทความนี้ได้รับการตีพิมพ์ในต่างๆ
การวิจัยและเขตชุมชน เราสามารถอ้างถึงและ oard ดอร์ ( 1996 ) และ oard diekema ( 1998 ) , Peter และ
เชอริแดน ( 2001 ) และ ฟูจิ และ อิชิคาวะ ( 2001 ) เป็นแหล่งที่มาสำหรับการระบุเอกสารเพิ่มเติม สุดท้ายปัญหาเราควรจะคุยกัน
clir เป็นทิศทางการวิจัยในอนาคต อะไรคือเป้าหมายของ clir ?
แล้วขั้นตอนต่อไปจะให้บรรลุเป้าหมาย ? ในการประชุมเชิงปฏิบัติการที่จัดขึ้น clir
sigir 2002การจัดงานนำเสนอสามความท้าทาย ( เกย์กันโด้ , & , ปีเตอร์ , 2002 ) :
1 ที่จะได้รับทรัพยากรสำหรับทรัพยากรจนภาษา ?
2 . ทำไมเราไม่ได้มีข้อมูลมากในเว็บหลายภาษา
3 ทำไม T เครื่องมือค้นหาใช้งานวิจัยของเรา
เป็นคำตอบที่เป็นไปได้สำหรับคำถามที่สาม พวกเขากล่าวว่า ' ถ้าผู้ใช้จะพบกับรายชื่อของ
เอกสารที่พวกเขาไม่สามารถอ่านได้สิ่งที่เป็นประโยชน์ ? ' ' เป็นจุดที่สำคัญมาก สำหรับการพิจารณาทิศทางของการวิจัย clir ในอนาคต
คือว่า เราอาจจะต้องวางแผน หลังจากมีความเข้าใจที่ชัดเจนของข้อมูลความต้องการของผู้ใช้และ
clir อย่างชัดเจนอธิบายมีเหตุผลโปรแกรมเมื่อโปรแกรมของ clir ใช้
โดยผู้ใช้จริง โดยพื้นที่ที่น่าสนใจต่าง ๆสำหรับการวิจัย clir ดูเหมือนจะยังคงอยู่ เช่นclir สำหรับข้อมูลมัลติมีเดีย
ตอบคำถามข้ามภาษา ข้ามภาษา ข้ามการตรวจสอบการกรองหัวข้อภาษาและการติดตาม
สรุปข้ามภาษา ข้ามภาษาการจัดกลุ่มเอกสารและอื่น ๆ บทความนี้ทบทวนไม่สามารถ
ครอบคลุมทั้งหมดของการวิจัยในพื้นที่เหล่านี้ที่สำคัญได้ถูกทำการวิจัย
.การ clir นักวิจัยอาจจะต้องระมัดระวังการเลือกทิศทางในอนาคตจากความเป็นไปได้มากในการสั่งซื้อเพื่อให้
ผู้ใช้จริงได้อย่างมีประสิทธิภาพและมีประสิทธิภาพตอบสนองข้อมูลความต้องการของตน
การแปล กรุณารอสักครู่..
