4 Experiments4.1 DataOur experiment

4 Experiments
4.1 Data
Our experiments use two large corpora of posts
containing hashtags from a popular social network.
1 The first corpus, which we call people,
consists of 201 million posts from individual user
accounts, comprising 5.5 billion words.
The second corpus, which we call pages, consists
of 35.3 million page posts, comprising 1.6billion words. These posts’ authorial voice is a
public entity, such as a business, celebrity, brand,
or product. The posts in the pages dataset are presumably
intended for a wider, more general audience
than the posts in the people dataset. Both are
summarized in Table 1.
Both corpora comprise posts between February
1st and February 17th, 2014. Since we are not attempting
a multi-language model, we use a simple
trigram-based language prediction model to consider
only posts whose most likely language is English.
The two datasets use hashtags very differently.
The pages dataset has a fatter head, with popular
tags covering more examples. The people dataset
uses obscure tags more heavily. For example, the
top 100 tags account for 33.9% of page tags, but
only 13.1% of people tags.
4.2 Hashtag prediction
The hashtag prediction task attempts to rank a
post’s ground-truth hashtags higher than hashtags
it does not contain. We trained models on
both the people and page datasets, and collected
precision at 1, recall at 10, and mean rank for
50,000 randomly selected posts withheld from
training. A further 50,000 withheld posts are
used for selecting hyperparameters. We compare
#TAGSPACE with the following models:
Frequency This simple baseline ignores input
text, always ranking hashtags by their frequency
in the training data.
#words This baseline assigns each tag a static
score based on its frequency plus a large bonus if
it corresponds to a word in the input text. For example,
on input “crazy commute this am”, #words
ranks #crazy, #commute, #this and #am
highest, in frequency order.
Word2vec We trained the unsupervised model
of Mikolov et al. (2013) on both datasets, treating
hashtags the same as all other words. To apply these word embeddings to ranking, we first
sum the embeddings of each word in the text (as
word2vec does), and then rank hashtags by similarity
of their embedding to that of the text.2

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

การทดลองที่ 44.1 ข้อมูลเราทดลองใช้ corpora ใหญ่ที่สองของบทความประกอบด้วย hashtags จากเครือข่ายสังคมยอดนิยม1 แรกคอร์พัสคริ ซึ่งเราเรียกคนจำนวน 201 ล้านบทความจากผู้ใช้บัญชี ประกอบคำ 5.5 พันล้านสองคอร์พัสคริ ซึ่งเราเรียกหน้า ประกอบด้วยการโพสต์หน้าล้าน 35.3 ประกอบด้วย 1.6billion คำ เสียง authorial ของข้อความเหล่านี้เป็นการหน่วยงานรัฐ ธุรกิจ ชื่อเสียง แบ รนด์หรือผลิตภัณฑ์ กระทู้ในชุดข้อมูลหน้าจะทับสำหรับผู้ชมที่กว้างขึ้น เพิ่มเติมกว่ากระทู้ในชุดข้อมูลคน ทั้งสองสรุปในตารางที่ 1ทั้ง corpora ประกอบด้วยบทความระหว่างเดือนกุมภาพันธ์1 และ 17 กุมภาพันธ์ 2014 เนื่องจากเราไม่ได้พยายามแบบหลายภาษา เราใช้ที่เรียบง่ายแบบจำลองพยากรณ์ trigram ตามภาษาพิจารณาเฉพาะ ลงซึ่งมักเป็นภาษาอังกฤษDatasets สองใช้ hashtags มากแตกต่างกันชุดข้อมูลหน้ามีหัว fatter ด้วยยอดนิยมแท็กที่ครอบคลุมตัวอย่างเพิ่มเติม ชุดข้อมูลคนใช้บดบังแท็กมากกว่า ตัวอย่าง การtags: 100 อันดับแรกบัญชี 33.9% หน้าแท็ก แต่เพียง 13.1% คนแท็ก4.2 การคาดเดาอย่างไร Hashtagงานการคาดเดาอย่างไร hashtag พยายามลำดับความสูงกว่า hashtags hashtags พื้นความจริงของโพสต์มันไม่ประกอบด้วยอยู่ เราอบรมรูปแบบการคนและหน้า datasets และรวบรวมความแม่นยำ 1 เรียกคืนที่ 10 และหมายถึง ตำแหน่งสำหรับบทความที่สุ่มเลือก 50000 หักจากฝึกอบรม 50000 ต่อหักโพสต์อยู่ใช้สำหรับเลือก hyperparameters เราเปรียบเทียบ#TAGSPACE มีรูปแบบต่อไปนี้:พื้นฐานเรื่องนี้ละเว้นความถี่อินพุตข้อความ จัดอันดับ hashtags เสมอ โดยความถี่ของในข้อมูลการฝึกอบรม#words พื้นฐานนี้กำหนดให้แต่ละแท็กคงคะแนนตามความถี่ของบวกโบนัสใหญ่ถ้ามันตรงกับคำในข้อความที่ป้อนเข้า ตัวอย่างในการป้อนข้อมูล "บ้าเดินทางนี้กำลัง" #wordsอันดับที่ #crazy, #commute, #this และ #amสูงสุด ความถี่ในการWord2vec เราฝึกแบบ unsupervisedของ Mikolov et al. (2013) ในทั้ง datasets รักษาhashtags เหมือนกับคำอื่น การใช้คำ embeddings นี้จัดอันดับ เราครั้งแรกรวม embeddings ของแต่ละคำในข้อ (เป็นword2vec ไม่), และจากนั้น จัดอันดับ hashtags โดยความคล้ายคลึงกันฝังที่ text.2

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

4 การทดลอง
4.1
ข้อมูลการทดลองของเราใช้สองคลังใหญ่ของโพสต์ที่มี
hashtags จากเครือข่ายสังคมยอดนิยม.
1
คลังแรกซึ่งเราเรียกคนประกอบด้วย201000000
โพสต์จากผู้ใช้แต่ละบัญชีประกอบ5500000000 คำ.
คลังที่สองซึ่ง ที่เราเรียกว่าหน้าประกอบด้วย
35.3 ล้านข้อความหน้าประกอบด้วยคำ 1.6billion authorial เสียงเหล่านี้โพสต์ 'เป็นนิติบุคคลสาธารณะเช่นธุรกิจที่มีชื่อเสียงแบรนด์หรือผลิตภัณฑ์ กระทู้ในชุดข้อมูลที่หน้าจะสันนิษฐานไว้สำหรับผู้ที่กว้างขึ้นผู้ชมทั่วไปมากขึ้นกว่าที่โพสต์ในชุดข้อมูลที่คน ทั้งสองจะถูกสรุปไว้ในตารางที่ 1 คลังทั้งสองรวมถึงการโพสต์ระหว่างเดือนกุมภาพันธ์ที่ 1 และ 17 กุมภาพันธ์ 2014 เนื่องจากเราไม่ได้พยายามที่รูปแบบหลายภาษาที่เราใช้ที่เรียบง่ายรูปแบบการทำนายtrigram ภาษาที่ใช้ในการพิจารณาการโพสต์เท่านั้นที่มีภาษาเป็นไปได้มากที่สุดภาษาอังกฤษ. ทั้งสองชุดใช้ hashtags แตกต่างกันมาก. ชุดข้อมูลหน้ามีหัวอ้วนขึ้นด้วยความนิยมแท็กครอบคลุมตัวอย่างเพิ่มเติม ชุดข้อมูลคนใช้แท็กคลุมเครือมากขึ้นอย่างมาก ยกตัวอย่างเช่น100 แท็กบัญชีสำหรับ 33.9% ของแท็กหน้า แต่เพียง13.1% ของแท็กคน. 4.2 แฮชแท็กทำนายงานhashtag ทำนายความพยายามที่จะจัดอันดับhashtags โพสต์ของพื้นดินที่สูงกว่าความจริง hashtags มันไม่ได้มี เราได้รับการฝึกฝนรุ่นในทั้งผู้คนและชุดหน้าและรวบรวมความแม่นยำที่1, การเรียกคืนที่ 10, และหมายถึงการจัดอันดับสำหรับ50,000 โพสต์สุ่มเลือกหักจากการฝึกอบรม อีก 50,000 ระงับการโพสต์จะถูกนำมาใช้สำหรับการเลือกhyperparameters เราเปรียบเทียบ#TAGSPACE กับรุ่นต่อไปนี้: ความถี่พื้นฐานที่เรียบง่ายนี้ละเว้นการป้อนข้อความเสมอการจัดอันดับ hashtags ตามความถี่ของพวกเขาในข้อมูลการฝึกอบรม. #words พื้นฐานนี้กำหนดแต่ละแท็กคงคะแนนขึ้นอยู่กับความถี่บวกโบนัสขนาดใหญ่ถ้ามันสอดคล้องกับคำในข้อความที่ป้อนเข้า ยกตัวอย่างเช่นการป้อนข้อมูล "การเดินทางบ้านี้น" #words อันดับ #crazy, #commute, #this และ #am สูงสุดในการสั่งซื้อความถี่. Word2vec เราผ่านการฝึกอบรมรุ่นที่ใกล้ชิดของMikolov et al, (2013) ในชุดข้อมูลทั้งสองรักษาhashtags เช่นเดียวกับคำอื่น ๆ ทั้งหมด เมื่อต้องการใช้ embeddings คำเหล่านี้ในการจัดอันดับครั้งแรกที่เราสรุปembeddings ของแต่ละคำในข้อความ (เป็นword2vec ไม่) แล้วอันดับ hashtags โดยความคล้ายคลึงกันของการฝังของพวกเขาเพื่อที่text.2

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

4.1 ข้อมูลการทดลอง 4 การทดลอง

เราใช้คลังข้อมูลขนาดใหญ่ที่มีสองโพสต์
hashtags จากเครือข่ายทางสังคมที่นิยม .
1 คลังข้อมูลแรกซึ่งเราเรียกคน
ประกอบด้วย 201 ล้านข้อความจากบัญชีผู้ใช้
บุคคล จำนวน 5.5 พันล้านคำ
คอร์ปัสวินาที ซึ่งเราเรียกหน้า ประกอบด้วย
ของ 35.3 ล้านหน้าโพสต์ ประกอบด้วยคำ 1.6billion . โพสต์ authorial เสียงเป็น
' เหล่านี้ข่าวหน่วยงาน เช่นธุรกิจ , คนดัง , แบรนด์ ,
หรือผลิตภัณฑ์ โพสต์ในเพจข้อมูลิษฐาน
ตั้งใจให้กว้างขึ้น ผู้ชมทั่วไปมากขึ้น
กว่าโพสต์ในคนวันที่ . ทั้งคู่
สรุปได้ในตารางที่ 1 .
2 คลังข้อมูลประกอบด้วยโพสต์ระหว่างเดือนกุมภาพันธ์
ที่ 1 กุมภาพันธ์ 17 , 2014 เนื่องจากเราไม่ได้พยายาม
หลายภาษาแบบที่เราใช้วิ
ไตรแกรมตามภาษาแบบจำลองการทำนายการพิจารณาเฉพาะโพสต์ที่มีมากที่สุด

สองภาษาคือภาษาอังกฤษ ข้อมูลใช้ hashtags แตกต่างกันมาก .
หน้าวันที่มีหัวอ้วน กับแท็กที่นิยม
ครอบคลุมตัวอย่างเพิ่มเติม คนข้อมูล
ใช้แท็กคลุมเครือมากขึ้นอย่างมาก ตัวอย่างเช่น
Top 100 แท็กบัญชี 33.9 % ของแท็กหน้า แต่เพียง 72% ของคน

4.2 การคาดการณ์
แฮชแท็กแท็กhashtag พยากรณ์งานพยายามที่จะจัดอันดับ
โพสต์จริงสูงกว่าพื้นดิน hashtags hashtags
มันไม่มี เราฝึกแบบจำลอง
ทั้งบุคคลและข้อมูลหน้า และเพื่อความแม่นยำในการเรียกคืน
1 , 10 , และหมายถึงอันดับสำหรับ
50000 สุ่มโพสต์ของ
การฝึกอบรม อีก 50 , 000 หักโพสต์
ใช้สําหรับการเลือก hyperparameters .
เราเปรียบเทียบ# tagspace กับรุ่นต่อไปนี้ :
ความถี่พื้นฐานง่ายๆ ไม่สนใจใส่
ข้อความเสมอตามความถี่ในการจัดอันดับ hashtags

ข้อมูลการฝึกอบรม #คำพื้นฐานนี้ทำได้โดยแต่ละแท็กคงที่
คะแนนขึ้นอยู่กับความถี่ของบวกขนาดใหญ่โบนัสถ้า
มันสอดคล้องกับคำที่ป้อนข้อความ ตัวอย่างเช่น
รับ " บ้าเดินทางนี้คือ " #คำ
อันดับ#บ้า #เดินทาง#นี้และ# am
สูงสุด ในการสั่งซื้อ ความถี่ .
word2vec เราฝึกแบบ unsupervised
ของ mikolov et al . ( 2013 ) ทั้งข้อมูลการรักษา
hashtags เหมือนกับคำอื่นๆทั้งหมด สมัคร embeddings คำเหล่านี้เพื่อการจัดอันดับ เราแรก
embeddings ผลรวมของแต่ละคำในข้อความ (
word2vec บ้าง ) แล้วอันดับ hashtags ความเหมือน
ของพวกเขาโดยการฝังที่ข้อความ 2 .

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.