4. Formal model for CLIR
4.1. Retrieval model for estimating document scores
If the query is translated into the language used in the document collection and the weight of each query
term is estimated in the translation process, the following procedure is almost the same as that of usual ad
hoc retrieval. Typically, document scores for ranked output are calculated using inverted files, and documents
are sorted in decreasing order of scores.
Thus, in CLIR, standard retrieval models or algorithms for estimating document scores such as the vector
space model (Buckley, Allan, & Salton, 1994), Okapi formula (Robertson, Walker, Jones, Hancock-Beaulieu,
& Gatford, 1995), INQUERY (Turtle & Croft, 1991), logistic regression model (Cooper, Chen, &
Gey, 1994), etc., have been employed. In particular, as mentioned above, the INQUERY system may
hold a unique position in CLIR because the structured query approach can be implemented by using special
K. Kishida / Information Processing and Management 41 (2005) 433–455 443
functions of the INQUERY system (#SYN or #UWN operators). PIRCS (Kwok, 1996), a kind of probabilistic
model, has often been used specifically for Chinese retrieval tasks (Kwok, Grunfeld, Dinstl, & Chan,
2001).
Recently, some researchers have attempted to apply the so-called language model (LM) to CLIR tasks.
Originally, the LM has been explored in the field of statistical natural language processing as a potentially
useful tool for the data-driven approach. Since IR tasks can be essentially considered a kind of natural language
processing of query statements and document texts, it may be natural to apply the LM to problems
of IR.
4.2. Language model for CLIR
The language model is basically the probabilistic distribution of sequences of ‘‘words’’ (Manning & Shu¨ -
tze, 1999, p. 71). A way to apply the model to document ranking is to estimate ‘‘the probability of producing
the query given a language model of a document,’’ and to use the value as a document score (Hiemstra,
1998; Ponte & Croft, 1998). A simple form of the probability can be written such that
PðQjdÞ ¼
Y
t2Q
ð1 kÞPðtÞ þ kPðtjdÞ;
where Q is a set of query terms, d is a given document and k is a parameter (0 6 k 6 1). Intuitively, it is
enough to make use of only a conditional probability p(tjd) for estimating the probability of producing
the query given the document. However, the probability that the term is generated in general, p(t), is incorporated
in order to prevent the probability of a query term not appearing in the document from becoming
zero. When weights of each query term are incorporated, the above formula is slightly changed (see Miller,
Leek, & Schwartz, 1999b for details).
One of the advantages of the language model approach to CLIR tasks is to enable us to put translation
probability p(tjs) directly into the formula where s is a source term and t is a target term. There are two
ways to incorporate the translation probability:
PðQjdÞ ¼
Y
t2Q
ð1 kÞPðtÞ þ k
X
s
PðtjsÞPðsjdÞ; ðIÞ
PðQjdÞ ¼
Y
t2Q
X
s
PðtjsÞ½ð1 kÞPðsÞ þ kPðsjdÞ: ðIIÞ
The formula (I) has been used in Xu et al. (2001), Fraser, Xu, and Weischedel (2003) and Franz and Scott
McCarley (2003). It should be noted that formula (I) was originally derived from an application of the Hidden
Markov Model (HMM) to an IR problem (Miller, Leek, & Schwartz, 1999a, 1999b). Since then, formula
(II) has been employed by Hiemstra and Kraaij (1999), Kraaij, Pohlmann, and Hiemstra (2000), etc.
With respect to (II), Hiemstra, Kraaij, Pohlmann, and Westerveld (2001) proposed a new relevance feedback
method for CLIR using the language model. The main difference between the two formulas is that in
formula (I), a corpus in the language of the query is needed for estimating probability P(t).
Kraaij (2002) also examined a variation of LM estimating P(Q,d), not P(Qjd), for modeling an empirical
fact that longer documents have a higher probability of relevance (i.e., P(Q,d) = P(Qjd)P(d)). Furthermore,
Lavrenko, Choquette, and Croft (2002) explored another formal method for applying language modeling in
which a model of the source topic in the target document is estimated based on a ‘‘relevance model,’’ which
specifies how often we expect to see any given word in the documents relevant to the query.
The translation probabilities can be estimated by the following methods:
• EM algorithm developed by IBM group (Brown et al., 1993).
• Use of information in a bilingual dictionary.
444 K. Kishida / Information Processing and Management 41 (2005) 433–455
A simple method of using information in a dictionary is to count the number of translations for each
source term. For example, if a source term s has n translations, t1, . . . , tn, the translation probabilities
can be assumed such that P(tijs) = 1/n (i = 1,. . . ,n) uniformly (Xu et al., 2001). On the other hand, for
weighting translations, Hiemstra and Kraaij (1999) seem to use a more complicated procedure based on
the number of distinct ‘‘senses’’ of the source term that each translation covers.
4. แบบจำลองสำหรับ CLIR4.1 การเรียกแบบจำลองสำหรับประเมินคะแนนเอกสารถ้าแบบสอบถามถูกแปลเป็นภาษาที่ใช้ในการเก็บรวบรวมเอกสารและน้ำหนักของแต่ละแบบสอบถามเงื่อนไขมีประเมินในกระบวนการแปล ขั้นตอนต่อไปนี้เป็นเกือบเหมือนที่โฆษณาปกติเรียกเฉพาะกิจ โดยปกติ เอกสารคะแนนสำหรับผลผลิตอันดับคำนวณใช้กลับแฟ้ม และเอกสารมีเรียงลำดับของคะแนนที่ลดลงดังนั้น ใน CLIR รุ่นมาตรฐานเรียกหรืออัลกอริทึมสำหรับการประเมินเอกสารคะแนนเช่นเวกเตอร์แบบจำลองพื้นที่ (Buckley, Allan, & Salton, 1994), สูตร Okapi (โรเบิร์ตสัน Walker โจนส์ แฮนค็อค ไลส์& Gatford, 1995), INQUERY (เต่าและ Croft, 1991), แบบจำลองถดถอยโลจิสติก (คูเปอร์ เฉิน และGey, 1994) ฯลฯ มีการจ้างงาน โดยเฉพาะ ชน ระบบ INQUERY อาจค้างอยู่ตำแหน่งเฉพาะใน CLIR เนื่องจากวิธีการโครงสร้างแบบสอบถามสามารถดำเนินการโดยพิเศษคุณ Kishida / ประมวลผลข้อมูลและการจัดการ 41 (2005) 433-455 443ฟังก์ชันของระบบ INQUERY (#SYN หรือ #UWN ตัว) PIRCS (ซเซสเตอร์ลุคโกวง 1996), ชนิดของ probabilisticรูปแบบ มีการใช้บ่อยครั้งโดยเฉพาะสำหรับงานจีนเรียก (ซเซสเตอร์ลุคโกวง Grunfeld, Dinstl และ จันทร์2001)ล่าสุด บางนักวิจัยได้พยายามใช้รูปแบบภาษาที่เรียกว่า (LM) กับงาน CLIRเดิม LM มีการสำรวจในภาษาสถิติที่ประมวลผลเป็นคำอาจเครื่องมือที่มีประโยชน์สำหรับวิธีการปรับปรุงข้อมูล เนื่องจากงาน IR สามารถเป็นเป็นแบบภาษาธรรมชาติประมวลผลคำสั่งแบบสอบถามและข้อเอกสาร อาจจะธรรมชาติกับ LM ปัญหาของใด4.2. ภาษารุ่นสำหรับ CLIRรูปแบบภาษาเป็นพื้นกระจาย probabilistic ลำดับ ''คำ '' (แมนนิงและ Shu¨-เจ๋อ 1999, p. 71) วิธีการใช้รูปแบบการจัดลำดับของเอกสารคือการ ประเมิน "ความน่าเป็นการผลิตแบบสอบถามที่กำหนดรูปแบบภาษาของเอกสาร และใช้ค่าคะแนนเอกสาร (Hiemstraปี 1998 ความสะดวกและ Croft, 1998) เขียนแบบอย่างของความเป็นไปได้ที่PðQjdÞ ¼Yt2Qð1 kÞPðtÞ þ kPðtjdÞที่ Q คือ ชุดของเงื่อนไขของแบบสอบถาม d คือ เอกสารกำหนด และ k คือ พารามิเตอร์ (0 6 6 1 k) สังหรณ์ใจ เป็นพอที่จะทำให้ใช้เฉพาะ p(tjd) ความน่าเป็นแบบมีเงื่อนไขสำหรับการประเมินความเป็นไปได้ของการผลิตแบบสอบถามที่ได้รับเอกสาร อย่างไรก็ตาม รวมความเป็นไปได้ว่า มีสร้างคำในทั่วไป p(t)เพื่อป้องกันความน่าเป็นคำถามที่ไม่ปรากฏในเอกสารจากการเป็นศูนย์ เมื่อน้ำหนักของแต่ละคำถามจะรวม สูตรข้างต้นเล็กน้อยเปลี่ยนแปลง (ดูมิลเลอร์ขนมจีบ leek และ Schwartz, 1999b สำหรับรายละเอียด)ข้อดีของวิธีการแบบจำลองภาษา CLIR งานอย่างใดอย่างหนึ่งจะช่วยให้เราสามารถใส่คำแปลความน่าเป็น p(tjs) โดยตรงลงในสูตรโดยที่ s คือ ระยะต้นและ t เป็นคำเป้าหมาย มีสองวิธีการรวมความแปล:PðQjdÞ ¼Yt2Qð1 kÞPðtÞ þ kXsPðtjsÞPðsjdÞ ðIÞPðQjdÞ ¼Yt2QXsPðtjsÞ½ð1 kÞPðsÞ þ kPðsjdÞ: ðIIÞใช้สูตร (I) ในสีและ al. (2001), เฟรเซอร์ สี และ Weischedel (2003) และ Franz สก็อตMcCarley (2003) ควรสังเกตว่า สูตร (I) แต่เดิมมาจากโปรแกรมประยุกต์ของซ่อนMarkov รุ่น (HMM) ปัญหาการ IR (มิลเลอร์ ขนมจีบ Leek, & Schwartz, 1999a, 1999b) ตั้งแต่สูตรแล้ว(II) ได้รับจ้าง โดย Hiemstra และ Kraaij (1999), Kraaij, Pohlmann และ Hiemstra (2000), ฯลฯกับ (II), Hiemstra, Kraaij, Pohlmann และ Westerveld (2001) เสนอข้อคิดเห็นเกี่ยวใหม่วิธีการใช้รูปแบบภาษา CLIR ความแตกต่างหลักระหว่างสูตรสองคือในจำเป็นต้องใช้สูตร (I), คอร์พัสคริในภาษาของแบบสอบถามสำหรับประเมินความน่าเป็น P(t)Kraaij (2002) นอกจากนี้ยังตรวจสอบความผันแปรของ LM ที่ประมาณ P(Q,d) ไม่ P(Qjd) สำหรับการรวมของการสร้างโมเดลข้อเท็จจริงว่า เอกสารที่ยาวมีความสูงความเกี่ยวข้อง (เช่น P(Q,d) = P(Qjd)P(d)) นอกจากนี้Lavrenko, Choquette และ Croft (2002) อุดมวิธีทางอื่นสำหรับการใช้ภาษาในการสร้างโมเดลซึ่งมีประเมินรูปแบบของหัวข้อต้นทางในเอกสารเป้าหมาย ตาม ''เกี่ยวแบบ ซึ่งระบุว่า เราคาดว่าจะเห็นคำที่กำหนดในเอกสารที่เกี่ยวข้องกับแบบสอบถามกิจกรรมแปลความ โดยวิธีต่อไปนี้:ขั้นตอนวิธี• EM ที่พัฒนา โดย IBM กลุ่ม (Brown et al., 1993)•การใช้ข้อมูลในพจนานุกรมสองภาษาKishida คุณ 444 / ประมวลผลข้อมูลและการจัดการ 41 (2005) 433-455วิธีการง่าย ๆ ของการใช้ข้อมูลในพจนานุกรมคือการ นับจำนวนการแปลสำหรับแต่ละคำว่าแหล่งที่มา ตัวอย่างเช่น ถ้าแหล่งคำ s มี n แปล t1,..., tn กิจกรรมแปลสามารถทึกทักเอาเช่นที่ P(tijs) = 1/n (ฉัน = 1, . ..., n) สม่ำเสมอเมื่อเทียบเคียง (Xu และ al., 2001) บนมืออื่น ๆ สำหรับน้ำหนักแปล Hiemstra และ Kraaij (1999) ดูเหมือนจะ ใช้ขั้นตอนที่ซับซ้อนมากขึ้นตามจำนวนของความแตกต่าง ''ความรู้สึก '' ของคำต้นฉบับที่ครอบคลุมการแปลแต่ละ
การแปล กรุณารอสักครู่..
4. รูปแบบที่เป็นทางการสำหรับ CLIR
4.1 รูปแบบการดึงคะแนนสำหรับการประเมินเอกสาร
ถ้าแบบสอบถามจะแปลเป็นภาษาที่ใช้ในการเก็บรวบรวมเอกสารและน้ำหนักของแต่ละแบบสอบถาม
ระยะประมาณในการแปลขั้นตอนต่อไปนี้เกือบจะเป็นเช่นเดียวกับที่โฆษณาตามปกติ
เฉพาะกิจการดึง โดยปกติคะแนนเอกสารสำหรับการส่งออกการจัดอันดับจะคำนวณโดยใช้ไฟล์คว่ำและเอกสาร
จะถูกจัดเรียงในลำดับที่ลดลงของคะแนน.
ดังนั้นใน CLIR รูปแบบการดึงมาตรฐานหรืออัลกอริทึมสำหรับการประเมินคะแนนเอกสารเช่นเวกเตอร์
รูปแบบพื้นที่ (บัคลี่ย์, อัลลันและ Salton , 1994) สูตร Okapi (โรเบิร์ตวอล์คเกอร์, โจนส์, แฮนค็อก-ไบน์
และ Gatford, 1995) INQUERY (เต่าและนา 1991) รูปแบบการถดถอยโลจิสติก (คูเปอร์, เฉินและ
Gey, 1994) และอื่น ๆ มี ได้รับการว่าจ้าง โดยเฉพาะอย่างยิ่งตามที่กล่าวไว้ข้างต้นระบบ INQUERY อาจ
ถือเป็นตำแหน่งที่ไม่ซ้ำกันใน CLIR เพราะวิธีการค้นหาโครงสร้างสามารถดำเนินการได้โดยใช้พิเศษ
เค Kishida / ข้อมูลการประมวลผลและการจัดการ 41 (2005) 433-455 443
ฟังก์ชั่นของระบบ INQUERY (#SYN หรือผู้ประกอบการ #UWN) PIRCS (กว๊อก, 1996) ชนิดของความน่าจะเป็น
รุ่นที่ได้รับมักจะใช้เฉพาะสำหรับการดึงงานภาษาจีน (กว๊อก Grunfeld, Dinstl และจัน,
2001).
เมื่อเร็ว ๆ นี้นักวิจัยบางคนได้พยายามที่จะใช้รูปแบบภาษาที่เรียกว่า ( LM) งาน CLIR.
เดิม LM ได้รับการสำรวจในด้านการประมวลผลภาษาธรรมชาติทางสถิติอาจเป็น
เครื่องมือที่มีประโยชน์สำหรับวิธีการที่ขับเคลื่อนด้วยข้อมูล ตั้งแต่งาน IR ได้รับการพิจารณาเป็นหลักชนิดของภาษาธรรมชาติ
การประมวลผลของงบการค้นหาเอกสารและข้อความมันอาจจะเป็นธรรมชาติที่จะนำไปใช้ LM ปัญหา
ของ IR.
4.2 รูปแบบภาษา CLIR
รูปแบบภาษาเป็นพื้นการกระจายความน่าจะเป็นของลำดับของ '' คำพูด '' (แมนนิ่งและเอส -
. Tze, 1999, หน้า 71) วิธีการที่จะใช้รูปแบบการจัดทำเอกสารการจัดอันดับคือการประเมิน '' น่าจะเป็นของการผลิต
แบบสอบถามที่กำหนดรูปแบบภาษาของเอกสาร '' และใช้ค่าคะแนนเป็นเอกสาร (Hiemstra,
1998; & Ponte นา 1998) . รูปแบบของความน่าจะสามารถเขียนได้ดังกล่าวว่า
PðQjdÞ¼
Y
t2Q
D1? kÞPðtÞþkPðtjdÞ;
Q ที่เป็นชุดของคำแบบสอบถาม d เป็นเอกสารที่กำหนดและ k เป็นพารามิเตอร์ (0 6 6 k 1) สังหรณ์ใจมันเป็น
พอที่จะทำให้การใช้งานเพียงไม่น่าจะเป็นเงื่อนไขพี (TJD) สำหรับการประเมินความน่าจะเป็นในการผลิต
แบบสอบถามที่ได้รับเอกสาร แต่น่าจะเป็นคำว่าถูกสร้างขึ้นโดยทั่วไปพี (t) เป็นนิติบุคคลที่จัดตั้ง
เพื่อป้องกันความน่าจะเป็นคำที่สืบค้นไม่ปรากฏในเอกสารจากการเป็น
ศูนย์ เมื่อน้ำหนักของคำค้นหาแต่ละครั้งได้มีการรวบรวมสูตรดังกล่าวข้างต้นมีการเปลี่ยนแปลงเล็กน้อย (ดูมิลเลอร์,
กระเทียมและชวาร์ตซ์, 1999b สำหรับรายละเอียด).
หนึ่งในข้อดีของวิธีการรูปแบบภาษา CLIR กับงานที่จะช่วยให้เราสามารถนำการแปล
ความน่าจะเป็นพี (TJS) โดยตรงในสูตรที่เป็นคำของแหล่งที่มาและเสื้อเป็นคำเป้าหมาย มีสอง
: วิธีการที่จะรวมความน่าจะแปล
PðQjdÞ¼
Y
t2Q
D1? kÞPðtÞþ k
X
s
PðtjsÞPðsjdÞ; Dith
PðQjdÞ¼
Y
t2Q
X
s
PðtjsÞ½ð1? kÞPðsÞþkPðsjdÞ ?: ðIIÞ
สูตร (ฉัน) ได้ถูกนำมาใช้ใน Xu et al, (2001), เฟรเซอร์ Xu และ Weischedel (2003) และฟรานซ์และสกอตต์
McCarley (2003) มันควรจะตั้งข้อสังเกตว่าสูตร (I) ได้มามีพื้นเพมาจากการประยุกต์ใช้ที่ซ่อน
มาร์คอฟ Model (HMM) ในการแก้ไขปัญหา IR (มิลเลอร์, กระเทียมและชวาร์ตซ์, 1999a, 1999b) ตั้งแต่นั้นมาสูตร
(II) ได้รับการว่าจ้างโดย Hiemstra และ Kraaij (1999), Kraaij, Pohlmann และ Hiemstra (2000) และอื่น ๆ
ด้วยความเคารพ (II), Hiemstra, Kraaij, Pohlmann และ Westerveld (2001) เสนอ ข้อเสนอแนะที่เกี่ยวข้องใหม่
วิธีการใช้แบบจำลอง CLIR ภาษา ความแตกต่างที่สำคัญระหว่างสองสูตรที่อยู่ใน
สูตร (I), คอร์ปัสในภาษาของแบบสอบถามเป็นสิ่งจำเป็นสำหรับการประเมินความน่าจะเป็น P (t).
Kraaij (2002) นอกจากนี้ยังมีการตรวจสอบการเปลี่ยนแปลงของ LM ประมาณการ P (Q, D) ไม่ P (Qjd) สำหรับการสร้างแบบจำลองเชิงประจักษ์
ความจริงที่ว่าเอกสารที่ได้มีโอกาสสูงที่เกี่ยวข้อง (เช่น P (Q, D) = P (Qjd) P (ง)) นอกจากนี้
Lavrenko, Choquette และนา (2002) อีกวิธีการสำรวจอย่างเป็นทางการสำหรับการสร้างแบบจำลองการใช้ภาษาใน
รูปแบบที่แหล่งที่มาของหัวข้อในเอกสารเป้าหมายประมาณขึ้นอยู่กับ '' รูปแบบความเกี่ยวข้อง '' ซึ่ง
ระบุว่าเรามักจะคาดหวังที่จะ เห็นคำใด ๆ ในเอกสารที่เกี่ยวข้องกับการค้นหา.
น่าจะแปลสามารถประมาณโดยวิธีการดังต่อไปนี้
. •อัลกอริทึม EM พัฒนาโดยกลุ่มของไอบีเอ็ม (. บราวน์, et al, 1993)
. •การใช้ข้อมูลในพจนานุกรมสองภาษา
444 K . Kishida / ข้อมูลการประมวลผลและการจัดการ 41 (2005) 433-455
วิธีการที่ง่ายของการใช้ข้อมูลในพจนานุกรมคือการนับจำนวนของการแปลสำหรับแต่ละ
ระยะแหล่งที่มา ตัวอย่างเช่นถ้าแหล่งที่มาของคำที่มีการแปล n, t1, . . , TN, ความน่าจะแปล
สามารถสันนิษฐานดังกล่าวว่า P (Tijs) = 1 / n (i = 1 ,. .. n) สม่ำเสมอ (Xu et al., 2001) ในทางตรงกันข้ามสำหรับ
แปลถ่วง Hiemstra และ Kraaij (1999) ดูเหมือนจะใช้ขั้นตอนที่ซับซ้อนมากขึ้นขึ้นอยู่กับ
จำนวนที่แตกต่างกัน '' ความรู้สึก '' แหล่งที่มาของคำว่าแต่ละแปลครอบคลุม
การแปล กรุณารอสักครู่..
4 . แบบเป็นทางการ clir
4.1 . รูปแบบการสืบค้นเพื่อประเมินเอกสารคะแนน
ถ้าแบบสอบถามแปลเป็นภาษาที่ใช้ในการเก็บเอกสาร และน้ำหนักของแต่ละแบบสอบถาม
ระยะประมาณในกระบวนการแปล ขั้นตอนต่อไปนี้เป็นเกือบเดียวกันกับของปกติโฆษณา
นี้เรียก โดยทั่วไป , คะแนนเอกสารอันดับผลผลิตจะคำนวณโดยใช้ตัวไฟล์และเอกสารจะถูกจัดเรียงในลำดับของ
ลดคะแนน ดังนั้น ในการ clir มาตรฐานหรือโมเดลขั้นตอนวิธีสำหรับประมาณเอกสารคะแนนเช่นแบบจำลองปริภูมิเวกเตอร์
( บัคลี่ย์ อัลเลน & Salton , 1994 ) , สูตรสัตว์เลี้ยงลูกด้วยนม ( โรเบิร์ตวอล์คเกอร์ โจนส์ แฮนค็อก โบลิ
& , gatford inquery , 1995 ) ( เต่า& Croft , 1991 ) , การวิเคราะห์การถดถอยโลจิสติก ( คูเปอร์ เฉิน &
มาก , 1994 ) , ฯลฯได้รับการว่าจ้าง โดยเฉพาะ ตามที่กล่าวไว้ข้างต้น ระบบ inquery อาจ
ถือตำแหน่งใน clir เพราะโครงสร้างแบบสอบถาม แนวทางที่สามารถดำเนินการได้โดยใช้พิเศษ
K . คิชิดะ / การประมวลผลข้อมูลและการจัดการ 41 ( 2005 ) 433 – 455 443
ฟังก์ชันของระบบ inquery ( # Def หรือ# uwn ผู้ประกอบการ ) pircs ( กัว , 1996 ) , ชนิดของแบบจำลองความน่าจะเป็น
,มักจะถูกใช้โดยเฉพาะอย่างยิ่งสำหรับงานสืบค้นภาษาจีน ( กัว grunfeld dinstl &ชาน , , , ,
2001 ) เมื่อเร็วๆ นี้ นักวิจัยบางคนได้พยายามที่จะใช้สิ่งที่เรียกว่าแบบจำลองภาษา ( LM ) clir งาน .
แต่เดิม โดยได้รับการสำรวจในด้านสถิติการประมวลผลภาษาธรรมชาติเป็นอาจ
มีประโยชน์ เครื่องมือสำหรับวิธีการ - .เนื่องจากงาน IR สามารถเป็นหลักพิจารณาชนิดของภาษา
ธรรมชาติการประมวลผลของงบแบบสอบถามและข้อความเอกสาร มันอาจจะเป็นธรรมชาติใช้ LM ปัญหาของ IR
.
4.2 . รูปแบบภาษาสำหรับ clir
ภาษารูปแบบโดยทั่วไปคือ การแจกแจงความน่าจะเป็นของลำดับของ ' 'words ' ' ( Manning &ชูตั้ง -
จื้อ , 2542 , หน้า 71 )วิธีที่จะใช้รูปแบบการจัดอันดับเอกสารประเมิน " ความน่าจะเป็นของผลิต
แบบสอบถามระบุภาษารูปแบบของเอกสาร และใช้ค่าตามที่เอกสารคะแนน ( hiemstra
, 1998 ; ปอน& Croft , 1998 ) รูปแบบเรียบง่ายของความน่าจะเป็นสามารถเขียนเช่น
P ð qjd Þ¼
y
t2q ð 1 K Þ P ð T Þþ KP ð tjd Þ ;
เมื่อ q เป็นชุดของเงื่อนไขการค้นหาD คือ ได้รับเอกสารและ k คือค่าพารามิเตอร์ ( 0 6 k 6 ( 1 ) สังหรณ์ใจ มัน
พอที่จะให้ใช้เพียงเงื่อนไขความน่าจะเป็น P ( tjd ) เพื่อประเมินความเป็นไปได้ของการผลิต
สอบถามได้รับเอกสาร อย่างไรก็ตาม โอกาสที่ระยะยาวจะถูกสร้างขึ้นในทั่วไป , P ( t ) เป็นนิติบุคคล
เพื่อป้องกันความเป็นไปได้ของแบบสอบถามในระยะที่ไม่ปรากฏในเอกสารจากกลายเป็น
0เมื่อน้ำหนักของแต่ละแบบสอบถามระยะเวลารวม สูตรข้างต้นจะเปลี่ยนไปเล็กน้อย ( ดู Miller
ลีค & Schwartz 1999b สำหรับรายละเอียด ) .
ข้อดีของรูปแบบทางภาษาเพื่อ clir งานคือการช่วยให้เราใส่น่าจะเป็นการแปล
p ( . ) โดยตรงลงในสูตรที่ S คือ ระยะแหล่ง และ T เป็นเป้าหมายระยะยาว มีสองวิธีที่จะรวมการแปล
ความน่าจะเป็น :
P ð qjd Þ¼
y
t2q ð 1 K Þ P ð T Þþ K
x
s
P ð . Þ P ðหะวานนท์Þ ; ðผมÞ
P ð qjd Þ¼
y
t2q
x
s
P ð . Þ½ð 1 K Þð p s Þþ KP ðหะวานนท์Þ : ð II Þ
สูตร ( ผม ) ถูกใช้ใน Xu et al . ( 2001 ) , เฟรเซอร์ ซู และ weischedel ( 2003 ) และฟรานซ์และสก็อต
แมคคาเลย์ ( 2003 ) มันควรจะสังเกตว่าสูตร ( ผม ) แต่เดิมได้มาจากการประยุกต์ใช้แบบจำลองมาร์คอฟที่ซ่อน
( อืม ) ปัญหา IR ( มิลเลอร์ ลีค & 1999a Schwartz ,1999b ) ตั้งแต่นั้นมา สูตร
( 2 ) ได้รับการว่าจ้างโดย hiemstra และ kraaij ( 1999 ) , kraaij พอลแมน , และ hiemstra ( 2000 ) เป็นต้น
ด้วยความเคารพ ( II ) , hiemstra kraaij พอลแมน , , , และ westerveld ( 2001 ) ได้เสนอวิธีการใหม่ , ติชม
clir โดยใช้แบบจำลองภาษา ความแตกต่างหลักระหว่างสองสูตรคือสูตรใน
( ผม )เป็นคลังข้อมูลในภาษาของแบบสอบถามที่ต้องการสำหรับการประเมินความน่าจะเป็น P ( t )
kraaij ( 2002 ) ศึกษาการเปลี่ยนแปลงของ LM P ( q , D ) ประมาณ ไม่ใช่ P ( qjd ) สำหรับการจำลองข้อเท็จจริงเชิงประจักษ์
ที่เอกสารที่ยาว มีความเป็นไปได้สูงที่เกี่ยวข้อง ( เช่น P ( Q , D ) = P ( qjd ) P ( D ) นอกจากนี้ lavrenko โชเควท
, , และครอฟท์ ( 2002 ) สำรวจอีกวิธีสำหรับใช้ภาษาแบบเป็นทางการ
ซึ่งเป็นรูปแบบของแหล่งที่มาของหัวข้อในเอกสารเป้าหมายประมาณการตาม ' 'relevance แบบ ' ' ซึ่ง
ระบุวิธีการที่เรามักจะคาดหวังที่จะเห็นใด ๆ ให้ คำ ในเอกสารที่เกี่ยวข้องกับการ แปลภาษา
ความน่าจะเป็นสามารถประเมินได้ด้วยวิธีการดังต่อไปนี้ :
- ขั้นตอนวิธีอีเอ็มที่พัฒนาโดย IBM กลุ่ม ( สีน้ำตาล et al . , 1993 ) .
ใช้บริการข้อมูลในพจนานุกรมสองภาษา .
1 kคิชิดะ / การประมวลผลข้อมูลและการจัดการ 41 ( 2005 ) 433 – 455
วิธีง่ายๆของการใช้ข้อมูลในพจนานุกรม คือ นับจํานวนการแปลแต่ละ
แหล่งอื่น ตัวอย่างเช่น ถ้าแหล่งระยะ S มี N แปล , T1 , . . . . . . . . , TN , น่าจะเป็นการแปล
สามารถสันนิษฐานว่า P ( tijs ) = 1 / n ( i = 1 , . . . . . . . . , n ) อย่างสม่ำเสมอ ( Xu et al . , 2001 ) บนมืออื่น ๆ ,
น้ำหนักการแปล hiemstra kraaij ( 1999 ) และดูเหมือนจะใช้ขั้นตอนที่ซับซ้อนมากขึ้นตามจำนวนที่แตกต่างกัน 'senses
' ' ' แหล่งที่มาของศัพท์ที่การแปลแต่ละครอบคลุม
การแปล กรุณารอสักครู่..