bstractBackground: Terminologies th

bstract
Background: Terminologies that account forvariation in languageuse by linking synonym sandab breviations to their corresponding concept are important enablers of high-quality information extraction from medical texts. Due to the use of specialized sub-languages in the medical domain, manual construction of semantic resources that accurately reflect language use is both costly and challenging, often resulting in low coverage. Although models of distributional semantics applied to large corpora provide a potential means of supporting development of such resources, their ability to isolate synonymy from other semantic relations is limited. Their application in the clinical domain has also only recently begun to be explored. Combining distributional models and applying them to different types of corpora may lead to enhanced performance on the tasks of automatically extracting synonyms and abbreviation-expansion pairs.
Results: Acombination of two distributional models–Random Index in gand Random Permutation–employedin conjunction with a single corpus outperforms using either of the models in isolation. Furthermore, combining semantic spaces induced from different types of corpora – a corpus of clinical text and a corpus of medical journal articles – further improves results, outperforming a combination of semantic spaces induced from a single source, as well as a single semantic space induced from the conjoint corpus. A combination strategy that simply sums the cosine similarity scores of candidate terms is generally the most profitable out of the ones explored. Finally, applying simple post-processing filtering rules yields substantial performance gains on the tasks of extracting abbreviation-expansion pairs, but not synonyms. The best results, measured as recall in a list of ten candidate terms, for the three tasks are: 0.39 for abbreviations to long forms, 0.33 for long forms to abbreviations, and 0.47 for synonyms.
Conclusions: Thisstudydemonstratesthatensemblesofsemanticspacescanyieldimprovedperformanceonthe tasks of automatically extracting synonyms and abbreviation-expansion pairs. This notion, which merits further exploration, allows different distributional models – with different model parameters – and different types of corpora to be combined, potentially allowing enhanced performance to be obtained on a wide range of natural language processing tasks.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

bstractพื้นหลัง: Terminologies ที่บัญชี forvariation ใน languageuse โดยการเชื่อมโยง breviations sandab เหมือนแนวคิดของพวกเขาเกี่ยวข้อง อยู่ enablers สำคัญของข้อมูลคุณภาพสูงสกัดจากแพทย์ เนื่องจากการใช้ภาษาย่อยเฉพาะในโดเมนทางการแพทย์ ก่อสร้างด้วยตนเองทรัพยากรความหมายที่บอกถึงการใช้ภาษาได้ ท้าทาย มักเกิดความครอบคลุมต่ำสุด และค่าใช้จ่าย แม้ว่ารูปแบบของความหมายขึ้นกับ corpora ใหญ่ให้หมายถึงมีศักยภาพสนับสนุนพัฒนาทรัพยากรดังกล่าว ความสามารถในการแยก synonymy จากความสัมพันธ์ความหมายอื่นไม่จำกัด สมัครในโดเมนทางคลินิกเท่านั้นยังเพิ่งได้เริ่มสำรวจ รวมแบบจำลองขึ้น และนำไปใช้กับชนิดต่าง ๆ ของ corpora อาจทำให้ประสิทธิภาพเพิ่มขึ้นงานของการตัดคำเหมือนและคู่ย่อขยายอัตโนมัติผลลัพธ์: Acombination รุ่น – สุ่มขึ้นสองดัชนีใน gand สุ่มการเรียงสับเปลี่ยน-employedin ร่วมกับคอร์พัสคริเดียว outperforms ใช้รุ่นที่แยกกัน นอกจากนี้ การรวมช่องว่างความหมายที่เกิดจากชนิดของ corpora –เป็นคอร์พัสคริข้อคลินิก – และคอร์พัสคริของบทความทางการแพทย์เพิ่มเติมปรับปรุงผลลัพธ์ outperforming รวมช่องว่างความหมายที่เกิดจากแหล่งเดียว ตลอดจนพื้นที่ทางตรรกเดียวเกิดจากคอร์พัสคริ conjoint กลยุทธ์ผสมให้เพียงคะแนนคล้ายโคไซน์ของผู้สมัครเงื่อนไข โดยทั่วไปที่กำไรมากที่สุดจากที่สำรวจได้ สุดท้าย ใช้อย่างประมวลผลกรองกฎผลผลิตประสิทธิภาพพบกำไรจากงานของแยกคู่ย่อขยาย แต่ไม่คำเหมือน สุด วัดเป็นการเรียกคืนรายการของ 10 ผู้สมัครเงื่อนไข สำหรับงานสาม: 0.39 สำหรับคำย่อการฟอร์มยาว 0.33 สำหรับฟอร์มคำย่อยาว และ 0.47 สำหรับคำเหมือนกัน: บทสรุปงาน Thisstudydemonstratesthatensemblesofsemanticspacescanyieldimprovedperformanceonthe ของการตัดคำเหมือนและคู่ย่อขยายอัตโนมัติ ความคิดนี้ ซึ่งบุญสำรวจเพิ่มเติม ให้ขึ้นแบบที่แตกต่าง – ด้วยรูปแบบที่แตกต่างกันพารามิเตอร์ – และชนิดต่าง ๆ ของ corpora รวม อาจช่วยเพิ่มประสิทธิภาพการทำงานที่ได้รับในความหลากหลายของงานการประมวลผลภาษาธรรมชาติ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

bstract
พื้นหลัง: ศัพท์ที่บัญชี forvariation ใน languageuse โดยการเชื่อมโยง breviations Sandab คำพ้องกับแนวคิดที่สอดคล้องกันของพวกเขาจะ enablers สำคัญของการมีคุณภาพสูงการสกัดข้อมูลจากตำราการแพทย์ เนื่องจากการใช้ภาษาย่อยเฉพาะในโดเมนการแพทย์, การก่อสร้างด้วยตนเองของทรัพยากรความหมายที่ถูกต้องสะท้อนให้เห็นถึงการใช้ภาษาเป็นทั้งค่าใช้จ่ายและความท้าทายมักจะเกิดในความคุ้มครองในระดับต่ำ แม้ว่ารูปแบบของการกระจายความหมายนำไปใช้กับคลังขนาดใหญ่ให้หมายถึงศักยภาพของการสนับสนุนการพัฒนาทรัพยากรเช่นความสามารถในการแยกความสัมพันธ์จากคำพ้องความหมายอื่น ๆ ที่มี จำกัด แอพลิเคชันของพวกเขาในโดเมนทางคลินิกยังได้เริ่มต้นเพียงเมื่อเร็ว ๆ นี้ได้รับการสำรวจ รวมรูปแบบการกระจายและนำมาใช้แตกต่างกันของคลังอาจนำไปสู่การเพิ่มประสิทธิภาพในงานพ้องสกัดโดยอัตโนมัติและคู่ย่อ-การขยายตัว.
ผลการศึกษา: Acombination ของสองรุ่น-สุ่มกระจายดัชนี Gand สุ่มร่วมเรียงสับเปลี่ยน-employedin กับคลังเดียว มีประสิทธิภาพดีกว่าโดยใช้รูปแบบในการแยก นอกจากนี้การรวมช่องว่างความหมายเหนี่ยวนำให้เกิดจากความแตกต่างของคลัง - คลังของข้อความทางคลินิกและการสะสมของบทความในวารสารทางการแพทย์ - ต่อไปจะช่วยเพิ่มผลดีกว่าการรวมกันของช่องว่างความหมายเหนี่ยวนำจากแหล่งเดียวเช่นเดียวกับพื้นที่ความหมายเดียวเหนี่ยวนำให้เกิดจาก คลังร่วมกัน กลยุทธ์การรวมกันที่เพียงผลรวมคะแนนความคล้ายคลึงกันโคไซน์ของข้อตกลงของผู้สมัครโดยทั่วไปจะมีกำไรมากที่สุดจากคนที่สำรวจ ในที่สุดการใช้กฎการกรองหลังการประมวลผลง่ายผลตอบแทนถัวเฉลี่ยเพิ่มประสิทธิภาพอย่างมากในงานของการแยกคู่ย่อขยายตัว แต่ไม่ได้คำพ้อง ผลลัพธ์ที่ดีที่สุดวัดเรียกคืนในรายการของสิบแง่ผู้สมัครสำหรับสามงานคือ: 0.39 สำหรับตัวย่อรูปแบบยาว 0.33 สำหรับรูปแบบนานในการย่อและ 0.47 สำหรับคำพ้อง.
สรุป: งาน Thisstudydemonstratesthatensemblesofsemanticspacescanyieldimprovedperformanceonthe พ้องสกัดโดยอัตโนมัติและย่อ -expansion คู่ ความคิดนี้ซึ่งประโยชน์ของการตรวจสอบข้อเท็จจริงต่อไปจะช่วยให้รูปแบบการกระจายแตกต่างกัน - มีพารามิเตอร์แบบที่แตกต่างกัน - และประเภทต่างๆของคลังที่จะนำมารวมกันอาจช่วยให้ผลการดำเนินงานที่เพิ่มขึ้นที่จะได้รับในช่วงกว้างของงานประมวลผลภาษาธรรมชาติ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

พื้นหลัง bstract
: คําศัพท์บัญชี forvariation ใน languageuse โดยการเชื่อมโยงคำที่เกี่ยวข้อง sandab breviations แนวคิดที่สอดคล้องกันของพวกเขามีความสำคัญ enablers ของการสกัดข้อมูลคุณภาพสูงจากตำราทางการแพทย์ เนื่องจากการใช้ภาษาเฉพาะโดเมนย่อยในทางการแพทย์คู่มือการก่อสร้างของระบบทรัพยากรที่ถูกต้องสะท้อนให้เห็นถึงการใช้ภาษามีทั้งแพง และท้าทายมักจะส่งผลให้ความคุ้มครองน้อย ถึงแม้ว่ารูปแบบของการแจกแจงอรรถศาสตร์ประยุกต์คลังข้อมูลขนาดใหญ่มีศักยภาพการรองรับการพัฒนาทรัพยากร เช่น ความสามารถในการแยกการมีความหมายเหมือนกันจากความสัมพันธ์ความหมายอื่น ๆจำกัดการประยุกต์ใช้ในทางคลินิกได้โดเมนเท่านั้นยังเพิ่งเริ่มที่จะสํารวจ รวมแบบสุ่มและใช้พวกเขาในประเภทที่แตกต่างกันของ corpora อาจนำไปสู่การเพิ่มประสิทธิภาพในงานโดยอัตโนมัติสกัดคำพ้องความหมายและคู่ขยายย่อ
ผลลัพธ์ :ผสมระหว่างสองแบบสุ่มและสุ่มสุ่มและการเปลี่ยนแปลงในดัชนีใน Gand ร่วมกับคลังข้อความเดียวมีประสิทธิภาพดีกว่าใช้ของรุ่นในการแยก . นอกจากนี้ การรวมระบบเป็นที่เกิดจากประเภทที่แตกต่างกันของคลังข้อมูลคลังข้อมูลและผลของข้อความทางคลินิกและคลังข้อมูลของวารสารทางการแพทย์และบทความเพิ่มเติม ปรับปรุงการรวมกันขององค์ประกอบเป็น induced outperforming จากแหล่งเดียว รวมทั้งพื้นที่ที่มีความหมายเดียวจากคลังข้อมูลร่วมกัน . การรวมกันของกลยุทธ์ที่เพียงแค่ผลรวมคะแนนของผู้สมัครที่เป็นเงื่อนไขต่างๆ คล้ายคลึงกัน โดยส่วนใหญ่ทำกำไรจากที่สำรวจ ในที่สุดการใช้กฎการกรองผลิตง่าย ผลผลิตมากการแสดงจากงานสกัดคู่ขยายคำย่อ แต่ความหมายเหมือนกัน ผลลัพธ์ที่ดีที่สุด วัดที่เรียกคืนในรายการของสิบแง่ผู้สมัคร ใน 3 งาน : 0.39 สำหรับตัวย่อในแบบฟอร์มยาว , 0.33 นานแบบย่อและ 0.47 เพื่อพ้อง .
สรุปthisstudydemonstratesthatensemblesofsemanticspacescanyieldimprovedperformanceonthe งานโดยอัตโนมัติสกัดคำพ้องความหมายและคู่ขยายคำย่อ ความคิดนี้ ซึ่งไปสำรวจเพิ่มเติม ช่วยให้รูปแบบที่แตกต่างกันและรูปแบบและพารามิเตอร์การแจกแจงที่แตกต่างกันและประเภทที่แตกต่างกันของคลังข้อมูลจะถูกรวมอาจช่วยให้ประสิทธิภาพที่เพิ่มขึ้นมาได้ในช่วงกว้างของงานประมวลผลภาษาธรรมชาติ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.