Random indexingRandom indexing (RI)

Random indexing
Random indexing (RI) [44] is an incremental, scalable and computationally efficient alternative to LSA in which explicit dimensionality reduction is avoidedg: a lower dimensionality d is instead chosen a priori as a model parameter and the d-dimensional context vectors are then constructed incrementally. This approach allows new data to be added at any given time without having to rebuild the semantic space. RI can be viewed as a two-step operation:

1. Each context (e.g. each document or unique term) is first given a static, unique representation in the vector space that is approximately uncorrelated to all other contexts. This is achieved by assigning a sparse, ternaryh and randomly generated d-dimensional index vector: a small number (usually around 1–2%) of +1’s and -1’s are randomly distributed, with the rest of the elements set to zero. By generating sparse vectors of a sufficiently high dimensionality in this way, the index vectors will be nearly orthogonali.

2. Each unique term is assigned an initially empty context vector of the same dimensionality d. The context vectors are then incrementally populated with context information by adding the (weighted) index vectors of the contexts in which the target term appears. With a sliding window context definition, this means that the index vectors of the surrounding terms are added to the target term’s context vector. The meaning of a term, represented by its context vector, is effectively the (weighted) sum of all the contexts in which it occurs.

Random permutation
Models of distributional semantics, including RI, generally treat each context as a bag of wordsj. Such models are often criticized for failing to account for term order. Recently, methods have been developed for building distributional semantic models that store and emphasize word order information [45-47]. Random permutation (RP) [46] is a modification of RI that encodes term order information by simply permuting (i.e., shifting) the elements in the index vectors according to their direction and distancek from the target term before they are added to the context vector. For instance, before adding the index vector of a term two positions to the left of the target term, the elements are shifted two positions to the left; similarly, before adding the index vector of a term one position to the right of the target term, the elements are shifted one position to the right. In effect, each term has multiple unique representations: one index vector for each possible position relative to the target term in the context window. Incorporating term order information not only enables order-based retrieval; it also constrains the types of semantic relations that are captured.

1. Each context (e.g. each document or unique term) is first given a static, unique representation in the vector space that is approximately uncorrelated to all other contexts. This is achieved by assigning a sparse, ternaryh and randomly generated d-dimensional index vector: a small number (usually around 1–2%) of +1’s and -1’s are randomly distributed, with the rest of the elements set to zero. By generating sparse vectors of a sufficiently high dimensionality in this way, the index vectors will be nearly orthogonali.

2. Each unique term is assigned an initially empty context vector of the same dimensionality d. The context vectors are then incrementally populated with context information by adding the (weighted) index vectors of the contexts in which the target term appears. With a sliding window context definition, this means that the index vectors of the surrounding terms are added to the target term’s context vector. The meaning of a term, represented by its context vector, is effectively the (weighted) sum of all the contexts in which it occurs.

Random permutation
Models of distributional semantics, including RI, generally treat each context as a bag of wordsj. Such models are often criticized for failing to account for term order. Recently, methods have been developed for building distributional semantic models that store and emphasize word order information [45-47]. Random permutation (RP) [46] is a modification of RI that encodes term order information by simply permuting (i.e., shifting) the elements in the index vectors according to their direction and distancek from the target term before they are added to the context vector. For instance, before adding the index vector of a term two positions to the left of the target term, the elements are shifted two positions to the left; similarly, before adding the index vector of a term one position to the right of the target term, the elements are shifted one position to the right. In effect, each term has multiple unique representations: one index vector for each possible position relative to the target term in the context window. Incorporating term order information not only enables order-based retrieval; it also constrains the types of semantic relations that are captured.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

การจัดทำดัชนีแบบสุ่มสุ่มทำดัชนี (RI) [44] เป็นทางเลือกเพิ่มขึ้น ปรับขนาดได้ และมีประสิทธิภาพ computationally LSA ที่ลด dimensionality ชัดเจนคือ avoidedg: เลือก d dimensionality ล่างแทนเป็น priori เป็นพารามิเตอร์แบบจำลอง และเวกเตอร์ d มิติบริบทถูกแล้วสร้างแบบเพิ่มหน่วย วิธีการนี้ช่วยให้ข้อมูลใหม่ที่จะเพิ่มในเวลาที่กำหนด โดยไม่ต้องสร้างพื้นที่ทางตรรก RI สามารถดูกระบวนการสองขั้นตอน:1. ในแต่ละบริบท (เช่นแต่ละเอกสารหรือคำเฉพาะ) เป็นครั้งแรกให้แทนคง เฉพาะในเวกเตอร์ที่ประมาณ uncorrelated กับบริบทอื่น ๆ การกำหนดบ่อ ternaryh และดัชนี d มิติที่สร้างขึ้นแบบสุ่มเวกเตอร์: จำนวนน้อย (โดยปกติประมาณ 1-2%) ของ + 1 และ -1 ของสุ่มกระจาย กับส่วนเหลือขององค์ประกอบที่กำหนดเป็นศูนย์ โดยการสร้างเวกเตอร์เบาของ dimensionality พอสูงด้วยวิธีนี้ เวกเตอร์ดัชนีจะเป็นเกือบ orthogonali2. แต่ละคำเฉพาะกำหนดให้เวกเตอร์การบริบทเริ่มว่างของ d dimensionality เดียวกัน เวกเตอร์บริบทแล้วแบบเพิ่มหน่วยถูกเติมข้อมูลกับข้อมูลบริบท โดยการบวกเวกเตอร์ดัชนี (ถ่วงน้ำหนัก) ของบริบทที่ปรากฏคำว่าเป้าหมาย ด้วยการเลื่อนหน้าต่างบริบทคำนิยาม ซึ่งหมายความ ว่า เวกเตอร์ดัชนีของรอบจะถูกเพิ่มลงเวกเตอร์บริบทของคำว่าเป้าหมาย ความหมายของคำ แทน ด้วยเวกเตอร์ของบริบท เป็นผลรวม (ถ่วงน้ำหนัก) ของบริบททั้งหมดที่ เกิดขึ้นได้อย่างมีประสิทธิภาพการเรียงสับเปลี่ยนแบบสุ่มรูปแบบของความหมายขึ้น รวมถึง RI รักษาบริบทแต่ละเป็นถุง wordsj โดยทั่วไป รุ่นดังกล่าวที่มักจะวิพากษ์วิจารณ์สำหรับการบัญชีสำหรับคำสั่ง ล่าสุด วิธีได้ถูกพัฒนาสำหรับการสร้างรูปแบบความหมายขึ้นที่เก็บ และเน้นข้อมูลคำสั่ง [45-47] การเรียงสับเปลี่ยนแบบสุ่ม (RP) [46] เป็นการปรับเปลี่ยนรีเมจแมปข้อมูลคำสั่ง โดยเพียงแค่ permuting ที่ (เช่น ขยับ) องค์ประกอบในเวกเตอร์ดัชนีตามทิศทางของพวกเขาและ distancek จากคำเป้าหมายก่อนต้องเวกเตอร์บริบท เช่น ก่อนที่จะเพิ่มเวกเตอร์ดัชนีตำแหน่งสองระยะทางด้านซ้ายของคำเป้าหมาย องค์ประกอบจะถูกเลื่อนตำแหน่งที่สองด้านซ้าย ในทำนองเดียวกัน ก่อนที่จะเพิ่มเวกเตอร์ดัชนีของระยะหนึ่งตำแหน่งทางด้านขวาของคำเป้าหมาย องค์ประกอบจะเปลี่ยนไปทางขวาหนึ่งตำแหน่ง ผล แต่ละคำได้นำเสนอเฉพาะหลาย: เวกเตอร์หนึ่งดัชนีสำหรับแต่ละตำแหน่งสามารถสัมพันธ์กับระยะเป้าหมายในหน้าต่างบริบท เพจข้อมูลคำสั่งไม่ให้เรียกตามลำดับ นอกจากนี้จำกัดชนิดของความสัมพันธ์ของความหมายที่ถูกจับ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การจัดทำดัชนีสุ่มการจัดทำดัชนีสุ่ม (RI) [44] เป็นที่เพิ่มขึ้นทางเลือกที่สามารถปรับขนาดได้และมีประสิทธิภาพคอมพิวเตอร์เพื่อ LSA ที่ลดลงอย่างชัดเจนมิติเป็น avoidedg กงมิติที่ต่ำกว่าได้รับการแต่งตั้งแทนเบื้องต้นเป็นแบบจำลองพารามิเตอร์และเวกเตอร์บริบท D-มิติ สร้างแล้วเพิ่มขึ้น
วิธีการนี้จะช่วยให้ข้อมูลใหม่ที่จะเพิ่มในเวลาใดก็ตามโดยไม่ต้องสร้างพื้นที่ความหมาย RI สามารถมองได้ว่าการดำเนินการสองขั้นตอน: 1 แต่ละบริบท (เช่นเอกสารแต่ละหรือระยะไม่ซ้ำกัน) จะได้รับครั้งแรกคงเป็นตัวแทนที่ไม่ซ้ำกันในปริภูมิเวกเตอร์ที่จะอยู่ที่ประมาณ uncorrelated บริบทอื่น ๆ นี่คือความสำเร็จโดยการกำหนดเบาบาง ternaryh และสร้างแบบสุ่มดัชนี d มิติเวกเตอร์: จำนวนน้อย (ปกติประมาณ 1-2%) ของ +1 และ -1 มีการกระจายแบบสุ่มกับส่วนที่เหลือขององค์ประกอบที่กำหนดให้เป็นศูนย์ โดยการสร้างพาหะเบาบางของมิติที่สูงพอสมควรในลักษณะนี้เวกเตอร์ดัชนีจะเกือบ orthogonali. 2 แต่ละคำที่ไม่ซ้ำกันที่ได้รับมอบหมายเวกเตอร์บริบทที่ว่างเปล่าในขั้นต้นของ d มิติเดียวกัน เวกเตอร์บริบทแล้วมีประชากรเพิ่มขึ้นด้วยข้อมูลบริบทโดยการเพิ่ม (ถ่วงน้ำหนัก) เวกเตอร์ดัชนีของบริบทซึ่งในระยะเป้าหมายจะปรากฏขึ้น ด้วยความหมายที่หน้าต่างบานเลื่อนบริบทนี้หมายความว่าเวกเตอร์ดัชนีของคำศัพท์โดยรอบมีการเพิ่มระยะเวกเตอร์บริบทของเป้าหมาย ความหมายของคำที่แสดงโดยเวกเตอร์บริบทของมันเป็นอย่างมีประสิทธิภาพ (ถ่วงน้ำหนัก) ผลรวมของทุกบริบทในการที่จะเกิดขึ้น. การเปลี่ยนแปลงสุ่มรุ่นความหมายกระจายรวมทั้ง RI โดยทั่วไปการรักษาบริบทแต่ละถุง wordsj รุ่นดังกล่าวได้รับการวิพากษ์วิจารณ์มักจะล้มเหลวในการบัญชีสำหรับการสั่งซื้อระยะ เมื่อเร็ว ๆ นี้วิธีการได้รับการพัฒนาสำหรับการสร้างแบบจำลองการกระจายความหมายว่าการจัดเก็บข้อมูลและเน้นคำสั่ง [45-47] การเปลี่ยนแปลงสุ่ม (RP) [46] คือการเปลี่ยนแปลงของโรตารีสากลที่ encodes ข้อมูลการสั่งซื้อระยะโดยเพียงแค่ permuting (เช่นขยับ) องค์ประกอบในเวกเตอร์ดัชนีให้เป็นไปตามทิศทางและ distancek ของพวกเขาจากระยะเป้าหมายก่อนที่จะมีการเพิ่มเวกเตอร์บริบท . ยกตัวอย่างเช่นก่อนที่จะเพิ่มเวกเตอร์ดัชนีของคำที่สองตำแหน่งด้านซ้ายของเป้าหมายระยะองค์ประกอบที่มีการเปลี่ยนสองตำแหน่งไปทางซ้าย; ในทำนองเดียวกันก่อนที่จะเพิ่มเวกเตอร์ดัชนีของคำที่ตำแหน่งหนึ่งไปทางขวาของเป้าหมายระยะที่องค์ประกอบที่มีการเปลี่ยนตำแหน่งหนึ่งไปทางขวา ผลระยะแต่ละคนมีการแสดงที่ไม่ซ้ำกันหลายเวกเตอร์ดัชนีหนึ่งสำหรับแต่ละตำแหน่งที่สัมพันธ์ไปได้ที่จะระยะเป้าหมายในหน้าต่างบริบท ผสมผสานข้อมูลการสั่งซื้อในระยะไม่เพียง แต่จะช่วยให้การเรียกใช้คำสั่งตาม; ก็ยัง constrains ประเภทของความสัมพันธ์ของความหมายที่ถูกจับ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การสุ่มการสุ่ม
( RI ) [ 44 ] เพิ่มขึ้น ยืดหยุ่นและ computationally ทดแทนที่มีประสิทธิภาพในการลด dimensionality LSA ที่ชัดเจนคือ avoidedg : ลด dimensionality D แทนที่จะเลือกระหว่างเป็นพารามิเตอร์และรูปแบบเวกเตอร์ d-dimensional บริบทแล้วสร้างเพิ่มทีละขั้นวิธีการนี้จะช่วยให้ข้อมูลที่จะเพิ่มใหม่ได้ตลอดเวลาโดยไม่ต้องสร้างพื้นที่ทางความหมาย ริสามารถดูเป็นปฏิบัติการที่ 2 :

1 แต่ละบริบท ( เช่นเอกสารแต่ละหรือเฉพาะเทอมแรก ) ให้คงที่ การเป็นตัวแทนในปริภูมิเวกเตอร์ที่ประมาณ uncorrelated บริบทอื่น ๆทั้งหมดที่ไม่ซ้ำกัน นี่คือความโดยระบุโปร่งternaryh และสร้างแบบสุ่ม d-dimensional ดัชนีเวกเตอร์ : จำนวนน้อย ( ปกติประมาณ 1 – 2 % ) 1 และ - 1 มีการกระจายแบบสุ่มกับส่วนที่เหลือขององค์ประกอบการตั้งค่าศูนย์ โดยการสร้างโหรงเวกเตอร์ของ dimensionality สูงอย่างเพียงพอในวิธีนี้ ดัชนีเวกเตอร์จะเกือบ orthogonali

2ในแต่ละเทอมไม่ซ้ำกันคือกำหนดบริบทเริ่มต้นที่ว่างเปล่าเวกเตอร์ของ dimensionality เดียวกัน d . บริบทเวกเตอร์แล้วแบบเพิ่มหน่วยมีประชากรที่มีข้อมูลบริบทโดยการเพิ่ม ( น้ำหนัก ) ดัชนีเวกเตอร์ ของบริบทที่ระยะเป้าหมายปรากฏขึ้น กับความหมายบริบทบานเลื่อนหน้าต่างหมายความว่าดัชนีเวกเตอร์รอบเวกเตอร์บริบทเงื่อนไขเพิ่มเป้าหมายระยะยาวของ ความหมายของคําที่แสดงโดยบริบทของเวกเตอร์เป็นอย่างมีประสิทธิภาพ ( น้ำหนัก ) ผลรวมของทั้งหมดบริบทที่มันเกิดขึ้น

แบบสุ่มสุ่มการเปลี่ยนแปลงความหมาย รวมถึง ริ โดยทั่วไปการรักษาแต่ละบริบท เช่น ถุง wordsj .รูปแบบดังกล่าวมักจะถูกวิจารณ์ความล้มเหลวบัญชีสําหรับคําสั่ง เมื่อเร็วๆ นี้ วิธีการ ได้รับการพัฒนาสำหรับการสร้างสุ่มความหมายรุ่นที่ร้านและเน้นคำข้อมูล [ สั่ง 45-47 ] สุ่มเรียงลำดับ ( RP ) [ 46 ] คือการแก้ไขริที่เข้ารหัสข้อมูลเพื่อระยะยาว โดยเพียงแค่ permuting ( เช่นช ) องค์ประกอบในดัชนีเวกเตอร์ตามทิศทางของพวกเขาและ distancek จากระยะเป้าหมายก่อนที่จะเพิ่มบริบทเวกเตอร์ ตัวอย่าง ก่อนการเพิ่มดัชนีเวกเตอร์ของระยะสองตำแหน่งอยู่ด้านซ้ายระยะเป้าหมายองค์ประกอบที่เปลี่ยนสองตำแหน่งไปทางซ้าย ในทํานองเดียวกันก่อนที่จะเพิ่มดัชนีเวกเตอร์ของระยะหนึ่งตำแหน่งที่ด้านขวาของคำว่าเป้าหมายองค์ประกอบที่เปลี่ยนตำแหน่งหนึ่งไปยังด้านขวา ผล ในแต่ละเทอมมีหลายแนวทางที่เป็นเอกลักษณ์หนึ่งดัชนีเวกเตอร์สำหรับแต่ละตำแหน่ง เทียบกับเป้าหมายระยะยาวเป็นไปได้ในต่างบริบท ข้อมูลคําสั่งจะไม่เพียง แต่ช่วยให้คำสั่งเรียกใช้นอกจากนี้ยังเขียนชนิดของความสัมพันธ์ทางความหมาย ที่ถูกจับ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.