share the opinion that supervised learning
gives good results and that learning corpus must be made
up with tweets. To improve NER, gazetteers or entities
repositories like Freebasehave to be extended (many new
entities are missing there e.g: “Nintendo DS lite” (a product),
“Blue Stone 42” (a tv-show), etc.). Moreover, variations of
words have to be clustered and normalized (e.g: “tomorrow”
can be written ‘2mr’, ‘2mro’, ‘2mrrw’, ‘2mrw’, . . . ) and
we must know if we can learn something about capitalization
of words (which is randomly done in tweets universe) in
a given tweet
แชร์ความคิดเห็นที่ดูแลการเรียนรู้ให้ผลลัพธ์ที่ดีและที่สถานีการเรียนรู้ต้องทำเรื่องทวี การปรับปรุงอีกฝ่าย gazetteers หรือเอนทิตีเก็บเช่น Freebasehave จะถูกขยายมากใหม่เอนทิตีขาดหายไปเช่นมี: "นินเทนโด DS ไลท์" (ผลิตภัณฑ์),"ฟ้าหิน 42" (-ทีวี), ฯลฯ .) นอกจากนี้ รูปแบบของคำมีการคลัสเตอร์ และตามปกติ (เช่น: "พรุ่งนี้"สามารถเขียน '2mr', '2mro', '2mrrw', '2mrw',...) และเราต้องรู้ว่า เราสามารถเรียนรู้บางสิ่งเกี่ยวกับตัวพิมพ์ใหญ่คำ (ซึ่งได้ทำในจักรวาลทวี) ในกำหนดทวี
การแปล กรุณารอสักครู่..
