4.2.1. Named entity resolution (NER)
Usually, NER is a task well resolved by existing tools. But with
advent of social media like Facebook and particularly Twitter,
the writing style has deeply changed and new techniques
have to be developed. It is the case of [45,52,53] which tackle
NER in tweets. These basic tools are actually used to solve
more complex problems like event extraction in tweets [46].
Since tweets are short, very informal and noisy (username
mentions, URLs, various markers (@, #)) some changes have
to be done to improve classic NLP tools like Stanford NER or
Open NLP. [52,45,53] share the opinion that supervised learning
gives good results and that learning corpus must be made
up with tweets. To improve NER, gazetteers [52] or entities
repositories like Freebase [45] have to be extended (many new
entities are missing there e.g: “Nintendo DS lite” (a product),
“Blue Stone 42” (a tv-show), etc.). Moreover, variations of
words have to be clustered and normalized (e.g: “tomorrow”
can be written ‘2mr’, ‘2mro’, ‘2mrrw’, ‘2mrw’, . . . ) [45,53,54] and
we must know if we can learn something about capitalization
of words (which is randomly done in tweets universe) in
a given tweet [45].
4.2.1 มีชื่อเอนทิตีละเอียด (อีกฝ่าย)มักจะ อีกฝ่ายเป็นงานดีแก้ไขได้ โดยเครื่องมือที่มีอยู่ แต่มีจุติของสื่อสังคมเช่น Facebook และ Twitter โดยเฉพาะลักษณะการเขียนมีเทคนิคใหม่ และเปลี่ยนแปลงอย่างลึกซึ้งมีการพัฒนา เป็นกรณีของ [45,52,53] ที่ต่อสู้อีกฝ่ายในทวี เครื่องมือพื้นฐานเหล่านี้จริงใช้ในการแก้ปัญหาปัญหาที่ซับซ้อนมากขึ้นเช่นเหตุการณ์สกัดในทวี [46]ตั้งแต่ทวีมีสั้น ไม่เป็นทางการ และเสียงดัง (ชื่อผู้ใช้กล่าวถึง Url เครื่องหมายต่าง ๆ (แอท #)) มีการเปลี่ยนแปลงบางอย่างต้องทำการปรับปรุงเครื่องมือ NLP คลาสสิกเช่นสแตนฟอร์ดอีกฝ่าย หรือเปิด NLP แชร์ [52,45,53] ความคิดเห็นที่ดูแลการเรียนรู้ให้ผลลัพธ์ที่ดีและที่สถานีการเรียนรู้ต้องทำเรื่องทวี การปรับปรุงอีกฝ่าย gazetteers [52] หรือเอนทิตีต้องขยายมากใหม่เก็บเช่น Freebase [45]เอนทิตีขาดหายไปเช่นมี: "นินเทนโด DS ไลท์" (ผลิตภัณฑ์),"ฟ้าหิน 42" (-ทีวี), ฯลฯ .) นอกจากนี้ รูปแบบของคำมีการคลัสเตอร์ และตามปกติ (เช่น: "พรุ่งนี้"สามารถเขียน '2mr', '2mro', '2mrrw', '2mrw',...) [45,53,54] และเราต้องรู้ว่า เราสามารถเรียนรู้บางสิ่งเกี่ยวกับตัวพิมพ์ใหญ่คำ (ซึ่งได้ทำในจักรวาลทวี) ในการทวีการกำหนด [45]
การแปล กรุณารอสักครู่..
4.2.1 ความละเอียดของนิติบุคคลที่มีชื่อ (NER)
โดยปกติ NER เป็นงานที่ได้รับการแก้ไขอย่างดีจากเครื่องมือที่มีอยู่ แต่ด้วย
การถือกำเนิดของสื่อสังคมออนไลน์เช่น Facebook และโดยเฉพาะอย่างยิ่ง Twitter,
สไตล์การเขียนที่มีการเปลี่ยนแปลงอย่างลึกซึ้งและเทคนิคใหม่ ๆ
จะต้องมีการพัฒนา มันเป็นกรณีของ [45,52,53] ซึ่งแก้ไขปัญหา
NER ในทวิตเตอร์ เครื่องมือพื้นฐานเหล่านี้จะถูกนำมาใช้จริงในการแก้
ปัญหาที่ซับซ้อนมากขึ้นเช่นการสกัดเหตุการณ์ในทวีต [46].
ตั้งแต่ทวีตสั้นทางการมากและมีเสียงดัง (ชื่อผู้ใช้
กล่าวถึง URL ที่เครื่องหมายต่างๆ (@, #)) การเปลี่ยนแปลงบางอย่างได้
ที่จะทำเพื่อ ปรับปรุงเครื่องมือ NLP คลาสสิกเช่นสแตนฟอ NER หรือ
เปิด NLP [52,45,53] แบ่งปันความเห็นว่าการเรียนรู้ภายใต้การดูแล
ให้ผลดีและคลังข้อมูลการเรียนรู้จะต้องทำ
ขึ้นมาพร้อมกับทวีต เพื่อปรับปรุงเนอร์ Gazetteers [52] หรือหน่วยงาน
ที่เก็บเช่น Freebase [45] จะต้องมีการขยาย (ใหม่หลาย
หน่วยงานที่มีการขาดหายไปเช่น: "Nintendo DS Lite" (ผลิตภัณฑ์)
"ฟ้าหิน 42" (ทีวีโชว์) ฯลฯ ) นอกจากนี้รูปแบบของ
คำพูดจะต้องมีการกระจุกตัวและปกติ (เช่น: "วันพรุ่งนี้"
สามารถเขียนได้ '2MR', '2mro', '2mrrw', '2mrw'...) [45,53,54] และ
เราจะต้อง รู้ว่าถ้าเราสามารถเรียนรู้อะไรเกี่ยวกับโครงสร้างเงินทุน
ของคำ (ซึ่งจะทำแบบสุ่มในทวิตเตอร์จักรวาล) ใน
ทวีตรับ [45]
การแปล กรุณารอสักครู่..