Usually, NER is a task well resolved by existing tools. But with advent of social media like Facebook and particularly Twitter, the writing style has deeply changed and new techniques have to be developed. It is the case of [45,52,53] which tackle NER in tweets. These basic tools are actually used to solve more complex problems like event extraction in tweets [46]. Since tweets are short, very informal and noisy (username mentions, URLs, various markers (@, #)) some changes have to be done to improve classic NLP tools like Stanford NER or Open NLP. [52,45,53] share the opinion that supervised learning gives good results and that learning corpus must be made up with tweets. To improve NER, gazetteers [52] or entities repositories like Freebase [45] have to be extended (many new entities are missing there e.g: “Nintendo DS lite” (a product),
“Blue Stone 42” (a tv-show), etc.). Moreover, variations of
words have to be clustered and normalized (e.g: “tomorrow”
can be written ‘2mr’, ‘2mro’, ‘2mrrw’, ‘2mrw’, . . . ) [45,53,54] and
we must know if we can learn something about capitalization
of words (which is randomly done in tweets universe) in
a given tweet [45].
มักจะ อีกฝ่ายเป็นงานดีแก้ไขได้ โดยเครื่องมือที่มีอยู่ แต่กับการถือกำเนิดของสื่อสังคมเช่น Facebook และ Twitter โดยเฉพาะอย่างยิ่ง ลักษณะการเขียนมีการเปลี่ยนแปลงอย่างลึกซึ้ง และต้องมีพัฒนาเทคนิคใหม่ มันเป็นกรณีของ [45,52,53] เล่นอีกฝ่ายในทวี จริง ๆ แล้วใช้เครื่องมือพื้นฐานเหล่านี้เพื่อแก้ปัญหาที่ซับซ้อนมากขึ้นเช่นเหตุการณ์สกัดในทวี [46] ตั้งแต่ทวีมีสั้น ไม่เป็นทางการ และเสียงดัง (กล่าวถึงชื่อผู้ใช้ Url เครื่องหมายต่าง ๆ (แอท #)) เปลี่ยนแปลงบางอย่างที่มีการดำเนินการปรับปรุงเครื่องมือ NLP คลาสสิกเช่นสแตนฟอร์ดอีกฝ่ายหรือ NLP เปิด แชร์ [52,45,53] ความคิดเห็นที่ดูแลการเรียนรู้ให้ผลลัพธ์ที่ดี และสถานีการเรียนรู้ที่ต้องทำขึ้นกับทวี การปรับปรุงอีกฝ่าย gazetteers [52] หรือเก็บเอนทิตีเช่น Freebase [45] ที่มีการขยาย (หลายเอนทิตีใหม่จะหายไปเช่นมี: "นินเทนโด DS ไลท์" (ผลิตภัณฑ์),"ฟ้าหิน 42" (-ทีวี), ฯลฯ .) นอกจากนี้ รูปแบบของคำมีการคลัสเตอร์ และตามปกติ (เช่น: "พรุ่งนี้"สามารถเขียน '2mr', '2mro', '2mrrw', '2mrw',...) [45,53,54] และเราต้องรู้ว่า เราสามารถเรียนรู้บางสิ่งเกี่ยวกับตัวพิมพ์ใหญ่คำ (ซึ่งได้ทำในจักรวาลทวี) ในการทวีการกำหนด [45]
การแปล กรุณารอสักครู่..
โดยปกติ NER เป็นงานที่ได้รับการแก้ไขอย่างดีจากเครื่องมือที่มีอยู่ แต่ด้วยการถือกำเนิดของสื่อทางสังคมเช่น Facebook และโดยเฉพาะอย่างยิ่ง Twitter, สไตล์การเขียนที่มีการเปลี่ยนแปลงอย่างลึกซึ้งและเทคนิคใหม่ ๆ จะต้องมีการพัฒนา มันเป็นกรณีของ [45,52,53] ซึ่งแก้ไขปัญหา NER ในทวีต เครื่องมือพื้นฐานเหล่านี้จะถูกนำมาใช้จริงในการแก้ปัญหาที่ซับซ้อนมากขึ้นเช่นการสกัดเหตุการณ์ในทวีต [46] ตั้งแต่ทวีตสั้นทางการมากและมีเสียงดัง (ชื่อผู้ใช้กล่าวถึง URL ที่เครื่องหมายต่างๆ (@, #)) การเปลี่ยนแปลงบางอย่างจะต้องมีการทำเพื่อปรับปรุงเครื่องมือ NLP คลาสสิกเช่นสแตนฟอ NER หรือ Open NLP [52,45,53] แบ่งปันความเห็นว่าการเรียนรู้ภายใต้การดูแลให้ผลดีและคลังข้อมูลการเรียนรู้จะต้องทำขึ้นมาพร้อมกับทวีต เพื่อปรับปรุงเนอร์ Gazetteers [52] หรือหน่วยงานที่เก็บเช่น Freebase [45] จะต้องมีการขยาย (หน่วยงานใหม่ ๆ จะขาดหายไปเช่น: "Nintendo DS Lite" (ผลิตภัณฑ์)
"ฟ้าหิน 42" (ทีวีโชว์) ฯลฯ ) นอกจากนี้รูปแบบของ
คำพูดจะต้องมีการกระจุกตัวและปกติ (เช่น: "วันพรุ่งนี้"
สามารถเขียนได้ '2MR', '2mro', '2mrrw', '2mrw'...) [45,53,54] และ
เราจะต้อง รู้ว่าถ้าเราสามารถเรียนรู้อะไรเกี่ยวกับโครงสร้างเงินทุน
ของคำ (ซึ่งจะทำแบบสุ่มในทวิตเตอร์จักรวาล) ใน
ทวีตรับ [45]
การแปล กรุณารอสักครู่..
โดยปกติ เนอร์เป็นงานดี แก้ไขด้วยเครื่องมือที่มีอยู่ แต่ด้วยแอดเวนต์ของสื่อสังคมเช่น Facebook และ Twitter โดยเฉพาะอย่างยิ่ง การเขียนมีสไตล์และเทคนิคใหม่ ๆเปลี่ยน ต้องพัฒนา มันเป็นกรณีของ [ 45,52,53 ] ซึ่งจัดการที่อยู่ในข้อความ เครื่องมือพื้นฐานเหล่านี้จริงที่ใช้ในการแก้ปัญหาที่ซับซ้อนมากขึ้นเช่นเหตุการณ์การสกัดในทวีต [ 46 ] ตั้งแต่ทวีตสั้น เป็นกันเองมาก และมีเสียงดัง ( ชื่อผู้ใช้กล่าวถึง , URL , เครื่องหมายต่างๆ ( @ # ) การเปลี่ยนแปลงบางอย่างต้องทำเพื่อปรับปรุงเครื่องมือ NLP คลาสสิคเช่น Stanford เนอร์หรือเปิด NLP [ 52,45,53 ] แบ่งปันความคิดเห็นที่การเรียนรู้แบบมีผู้สอนให้ผลลัพธ์ที่ดีและข้อมูลการเรียนรู้ต้องคืนดีกับข้อความ เพื่อปรับปรุงเนอร์อักขรานุกรมภูมิศาสตร์ [ 52 ] หรือหน่วยงานที่เก็บเหมือนเจง [ 45 ] ต้องขยาย ( ใหม่หลายองค์กรจะหายไปมีเช่น : " Nintendo DS Lite " ( ผลิตภัณฑ์ )" ฟ้าหิน 42 " ( โทรทัศน์ ) , ฯลฯ ) นอกจากนี้ การเปลี่ยนแปลงของคำพูดต้องเป็นแบบปกติ ( เช่น : " พรุ่งนี้ "สามารถเขียน 2mr 2mro ' ' , ' ' , ' 2mrrw ' , ' 2mrw ' . . . . . . . . ) [ 45,53,54 ] และเราต้องรู้ว่า ถ้าเราสามารถเรียนรู้บางอย่างเกี่ยวกับทุนคำ ( ซึ่งเป็นแบบสุ่มใน tweets จักรวาล )ได้ Tweet [ 45 ]
การแปล กรุณารอสักครู่..