1 Introduction
Hashtags (single tokens often composed of natural
language n-grams or abbreviations, prefixed
with the character ‘#’) are ubiquitous on social
networking services, particularly in short textual
documents (a.k.a. posts). Authors use hashtags to
diverse ends, many of which can be seen as labels
for classical NLP tasks: disambiguation (chips
#futurism vs. chips #junkfood); identification
of named entities (#sf49ers); sentiment
(#dislike); and topic annotation (#yoga).
Hashtag prediction is the task of mapping text to
its accompanying hashtags. In this work we propose
a novel model for hashtag prediction, and
show that this task is also a useful surrogate for
learning good representations of text.
Latent representations, or embeddings, are vectorial
representations of words or documents, traditionally
learned in an unsupervised manner over
large corpora. For example LSA (Deerwester et
al., 1990) and its variants, and more recent neuralnetwork
inspired methods like those of Bengio et
al. (2006), Collobert et al. (2011) and word2vec
(Mikolov et al., 2013) learn word embeddings. In
the word embedding paradigm, each word is represented
as a vector in Rn, where n is a hyperparameter
that controls capacity. The embeddings
of words comprising a text are combined using a
model-dependent, possibly learned function, producing
a point in the same embedding space. A
similarity measure (for example, inner product)
gauges the pairwise relevance of points in the embedding
space.
Unsupervised word embedding methods train
with a reconstruction objective in which the embeddings
are used to predict the original text. For
example, word2vec tries to predict all the words
in the document, given the embeddings of surrounding
words. We argue that hashtag prediction
provides a more direct form of supervision:
the tags are a labeling by the author of the salient
aspects of the text. Hence, predicting them may
provide stronger semantic guidance than unsupervised
learning alone. The abundance of hashtags
in real posts provides a huge labeled dataset for
learning potentially sophisticated models.
In this work we develop a convolutional network
for large scale ranking tasks, and apply it
to hashtag prediction. Our model represents both
words and the entire textual post as embeddings as
intermediate steps. We show that our method outperforms
existing unsupervised (word2vec) and
supervised (WSABIE (Weston et al., 2011)) embedding
methods, and other baselines, at the hashtag
prediction task.
We then probe our model’s generality, by transfering
its learned representations to the task of personalized
document recommendation: for each of
M users, given N previous positive interactions
with documents (likes, clicks, etc.), predict the
N + 1’th document the user will positively interact
with. To perform well on this task, the representation
should capture the user’s interest in
textual content. We find representations trained
on hashtag prediction outperform representations
from unsupervised learning, and that our convolutional architecture performs better than WSABIE
trained on the same hashtag task.
บทนำ 1Hashtags (สัญญาณเดี่ยวมักประกอบด้วยธรรมชาติภาษา n กรัมหรือคำย่อ สิ่งมีอักขระ "#") จะแพร่หลายในสังคมบริการเครือข่าย ข้อความโดยเฉพาะอย่างยิ่งในระยะสั้นเอกสาร (หรือเวสท์วูดโพสต์) ผู้เขียนใช้ hashtags เพื่อสิ้นสุดหลากหลาย หลายที่สามารถมองเห็นเป็นป้ายชื่อสำหรับงาน NLP คลาสสิก: การแก้ความกำกวม (ชิ#futurism เทียบกับชิป #junkfood); รหัสชื่อเอนทิตี (#sf49ers); ความเชื่อมั่น(#dislike); และคำอธิบายของหัวข้อ (#yoga)การคาดเดาอย่างไร Hashtag เป็นงานของข้อความการแม็ปhashtags ที่มาของ ในงานนี้เราแบบนวนิยายสำหรับการคาดเดาอย่างไร hashtag และแสดงที่งานนี้ยังได้เป็นตัวแทนที่เป็นประโยชน์สำหรับเรียนดีที่ใช้แทนข้อความนำเสนอที่แฝงอยู่ หรือ embeddings มี vectorialใช้แทนคำหรือเอกสาร ประเพณีเรียนรู้ในลักษณะการ unsupervised มากกว่าcorpora ขนาดใหญ่ เช่น LSA (Deerwester etal., 1990) และการย่อย และล่าสุด neuralnetworkแรงบันดาลใจจากวิธีการเหมือนกับ Bengio ร้อยเอ็ดal. (2006), word2vec และ Collobert et al. (2011)(Mikolov et al., 2013) เรียนรู้คำ embeddings ในคำฝังกระบวนทัศน์ แต่ละคำจะถูกแสดงเป็นเวกเตอร์ใน Rn โดยที่ n คือ hyperparameter เป็นที่ควบคุมการผลิต Embeddingsคำ ประกอบด้วยข้อความรวมโดยใช้การขึ้นอยู่ กับรุ่น อาจเรียนรู้ฟังก์ชั่น ผลิตจุดใน embedding พื้นที่เดียวกัน Aการวัดความคล้ายกัน (เช่น คูณภายใน)ยนต์ gauges แพร์ไวส์ความสำคัญของคะแนนในการฝังพื้นที่คำ unsupervised ฝังวิธีการรถไฟมีวัตถุประสงค์ในการฟื้นฟู embeddingsใช้เพื่อทำนายข้อความเดิม สำหรับตัวอย่าง word2vec พยายามที่จะทำนายคำทั้งหมดในเอกสาร embeddings ของรอบที่กำหนดคำ เราทะเลาะทำนายว่าอย่างไร hashtagให้ดูแลรูปแบบอ้อม:แท็กมีการติดฉลาก โดยผู้เขียนเด่นลักษณะของข้อความ ดังนั้น จึง คาดการณ์ได้อาจให้คำแนะนำความหมายแข็งแกร่งกว่า unsupervisedเรียนคนเดียว มาย hashtagsในบทความจริงแสดงการชุดข้อมูลป้ายขนาดใหญ่สำหรับอาจเรียนรู้รูปแบบที่ทันสมัยในงานนี้ เราได้พัฒนาเครือข่าย convolutionalสำหรับขนาดใหญ่จัดอันดับงาน และนำไปใช้การคาดเดาอย่างไร hashtag แสดงแบบจำลองของเราทั้งสองคำและข้อความทั้งหมดลงเป็น embeddings เป็นตอนกลาง แสดงว่า วิธีการของเรา outperformsอยู่ unsupervised (word2vec) และมีฝังตัว (WSABIE (Weston et al., 2011))วิธีการ และเส้นอื่น ๆ ที่อย่างไร hashtagงานการคาดเดาเราโพรบแล้ว generality ของรุ่นของเรา โดยการโอนส่วนบุคคลแทนการเรียนรู้การงานเอกสารคำแนะนำ: สำหรับแต่ละผู้ใช้ M, N โต้บวกก่อนหน้าให้เอกสาร (ชอบ คลิก ฯลฯ), ทำนายการN + 1' th เอกสารผู้ใช้จะโต้ตอบบวกด้วยการ ทำดีในงานนี้ การแสดงควรจับผู้สนใจในเนื้อหาข้อความ เราค้นหาแทนที่การฝึกอบรมในการคาดเดาอย่างไร hashtag outperform แทนจาก unsupervised เรียนรู้ และการที่ สถาปัตยกรรมของเรา convolutional ทำดีกว่า WSABIEฝึกงานอย่างไร hashtag เดียว
การแปล กรุณารอสักครู่..

1 บทนำ
Hashtags
(สัญญาณเดียวมักจะประกอบด้วยธรรมชาติภาษาn-กรัมหรือตัวย่อที่นำหน้าด้วยตัวอักษร '#') ที่แพร่หลายในสังคมบริการเครือข่ายโดยเฉพาะอย่างยิ่งในการเป็นข้อความสั้นเอกสาร(aka โพสต์) ผู้เขียนใช้ hashtags ไปสิ้นสุดที่หลากหลายจำนวนมากที่สามารถมองเห็นเป็นป้ายสำหรับงานคลาสสิกNLP: วิกิพีเดีย (ชิป#futurism กับ #junkfood ชิป); บัตรประจำตัวของหน่วยงานชื่อ (# sf49ers); ความเชื่อมั่น(#dislike); และคำอธิบายประกอบในหัวข้อ (#yoga). ทำนายแฮชแท็กเป็นงานของข้อความการทำแผนที่กับhashtags ประกอบของ ในงานนี้เรานำเสนอรูปแบบใหม่สำหรับการทำนาย hashtag และแสดงให้เห็นว่างานนี้ยังเป็นตัวแทนที่มีประโยชน์สำหรับการเรียนรู้การเป็นตัวแทนที่ดีของข้อความ. การแสดงแฝงหรือ embeddings เป็น vectorial ตัวแทนของคำหรือเอกสารประเพณีที่ได้เรียนรู้ในลักษณะที่ใกล้ชิดมากกว่าคลังขนาดใหญ่ ตัวอย่างเช่น LSA (Deerwester et al., 1990) และตัวแปรของมันและเมื่อเร็ว ๆ นี้ neuralnetwork วิธีการรับแรงบันดาลใจเหมือน Bengio et al, (2006), Collobert et al, (2011) และ word2vec (Mikolov et al., 2013) เรียนรู้คำ embeddings ในกระบวนทัศน์การฝังคำแต่ละคำจะถูกแสดงเป็นเวกเตอร์ในRn ที่ n คือ hyperparameter ที่ควบคุมกำลังการผลิต embeddings ของคำประกอบไปด้วยข้อความที่จะรวมกันโดยใช้รูปแบบขึ้นอยู่กับการเรียนรู้อาจจะเป็นฟังก์ชั่นการผลิตจุดในพื้นที่ฝังเดียวกัน วัดความคล้ายคลึงกัน (เช่นสินค้าภายใน) มาตรวัดความเกี่ยวข้องจากจำนวนของจุดในการฝังพื้นที่. Unsupervised คำวิธีการฝังฝึกอบรมโดยมีวัตถุประสงค์การฟื้นฟูที่embeddings จะใช้ในการคาดการณ์ข้อความเดิม สำหรับตัวอย่างเช่น word2vec พยายามที่จะคาดการณ์ทุกคำในเอกสารที่ได้รับembeddings ของรอบคำ เรายืนยันว่าการทำนาย hashtag ให้เป็นรูปแบบโดยตรงมากขึ้นของการกำกับดูแล: แท็กเป็นการติดฉลากโดยผู้เขียนของเด่นด้านของข้อความ ดังนั้นการคาดการณ์อาจให้คำแนะนำความหมายแข็งแกร่งกว่าที่ใกล้ชิดการเรียนรู้เพียงอย่างเดียว ความอุดมสมบูรณ์ของ hashtags ในการโพสต์จริงมีชุดข้อมูลที่ติดป้ายขนาดใหญ่สำหรับการเรียนรู้รูปแบบที่มีความซับซ้อนที่อาจเกิดขึ้น. ในงานนี้เราพัฒนาเครือข่ายความสับสนสำหรับงานการจัดอันดับของขนาดใหญ่และใช้มันเพื่อhashtag การทำนาย แบบจำลองของเราเป็นทั้งคำพูดและการโพสต์เกี่ยวกับใจทั้งหมดเป็น embeddings เป็นขั้นตอนกลาง เราแสดงให้เห็นว่าวิธีการของเรามีประสิทธิภาพดีกว่าใกล้ชิดที่มีอยู่ (word2vec) และการกำกับดูแล(WSABIE (เวสตัน et al., 2011)) ฝังวิธีการและเส้นเขตแดนอื่นๆ ที่ hashtag งานการทำนาย. จากนั้นเราจะตรวจสอบทั่วไปรูปแบบของเราโดยการถ่ายโอนการแสดงได้เรียนรู้ที่จะงานของส่วนบุคคลคำแนะนำเอกสาร: สำหรับแต่ละผู้ใช้M ให้ไม่มีปฏิสัมพันธ์เชิงบวกก่อนหน้านี้กับเอกสาร(ชอบคลิก ฯลฯ ) คาดการณ์N + เอกสาร 1'th ผู้ใช้ในเชิงบวกจะมีปฏิสัมพันธ์กับ ทำงานได้ดีในงานนี้ที่เป็นตัวแทนควรจับความสนใจของผู้ใช้ในเนื้อหาต้นฉบับเดิม เราพบการแสดงการฝึกอบรมเกี่ยวกับการทำนาย hashtag ดีกว่าการแสดงจากการเรียนรู้ใกล้ชิดและสถาปัตยกรรมความสับสนของเรามีประสิทธิภาพดีกว่าWSABIE ฝึกอบรมเกี่ยวกับงาน hashtag เดียวกัน
การแปล กรุณารอสักครู่..

1 บทนำ
hashtags ( เดี่ยวสัญญาณมักจะประกอบด้วย n-grams ภาษาธรรมชาติ
-
หรืออักษรย่อด้วยตัว# ' ) มีอยู่ทั่วไปในบริการเครือข่ายทางสังคมโดยเฉพาะอย่างยิ่งในเอกสารต้นฉบับเดิม
สั้น ( โพสต์ aka ) ผู้เขียนใช้ hashtags เพื่อ
หลากหลายสิ้นสุด หลายแห่งซึ่งสามารถมองเห็นเป็นป้าย
สำหรับงาน NLP คลาสสิก : แก้ความกำกวม ( ชิ
#อนาคตกาลกับชิป#จังค์ฟู้ด )กำหนดชื่อขององค์กร (
# sf49ers ) ; )
( #ไม่ชอบ ) ; และบันทึกย่อหัวข้อ ( #โยคะ ) .
hashtag ที่ทำนายคืองานข้อความแผนที่
ของมา hashtags . ในงานนี้เราเสนอรูปแบบใหม่ใน hashtag
ทำนาย และแสดงให้เห็นว่างานนี้มีตัวแทนที่เป็นประโยชน์สำหรับการเรียนรู้ที่ดีแทน
แฝงการแสดงข้อความ หรือ embeddings vectorial
,ใช้แทนคำพูดหรือเอกสารผ้า
เรียนรู้ในลักษณะ unsupervised กว่า
คลังข้อมูลขนาดใหญ่ ตัวอย่างเช่น LSA (
deerwester et al . , 1990 ) และตัวแปรของและแบบล่าสุด
แรงบันดาลใจจากวิธีการแบบ bengio et
อัล ( 2006 ) , collobert et al . ( 2011 ) และ word2vec
( mikolov et al . , 2013 ) เรียนรู้ embeddings word ใน
คำผ่านกระบวนทัศน์ แต่ละคำจะแสดง
เป็นเวกเตอร์ใน Rn โดยที่ n เป็น hyperparameter
ที่การควบคุมการผลิต การ embeddings
คำซึ่งประกอบด้วยข้อความรวมกันโดยใช้
รูปแบบขึ้นอยู่กับอาจเรียนรู้ฟังก์ชันการผลิต
จุดเดียวกันผ่านพื้นที่ a
ความเหมือนวัด ( ตัวอย่างเช่นภายในผลิตภัณฑ์ )
วัดความเกี่ยวข้องคู่ของจุดในพื้นที่การฝัง
.
วิธีการรถไฟของคุณ unsupervised คำมีวัตถุประสงค์ในการฟื้นฟู ซึ่ง embeddings
จะทำนายข้อความต้นฉบับ สำหรับ
ตัวอย่าง word2vec พยายามที่จะคาดเดาคำทั้งหมด
ในเอกสาร ให้ embeddings รอบ
คำ เรายืนยันว่า hashtag ทำนาย
มีแบบฟอร์มโดยตรงมากกว่าการนิเทศ :
แท็กเป็นฉลาก โดยผู้เขียนในแง่มุมเด่น
ของข้อความ ดังนั้นพวกเขาอาจ
ทำนายให้แข็งแกร่งกว่าความหมายการแนะแนว unsupervised
เรียนคนเดียว ความอุดมสมบูรณ์ของ hashtags
ในโพสต์จริงมีขนาดใหญ่ป้ายข้อมูลสำหรับการเรียนรู้แบบซ่อนเร้นซับซ้อน
.
ในงานนี้เราพัฒนา
เครือข่ายคอนสำหรับขนาดใหญ่อันดับงานและใช้มันเพื่อ hashtag
พยากรณ์ แบบจำลองของเราเป็นทั้งคำและข้อความทั้งหมด
โพสต์ embeddings เป็นขั้นกลางเราแสดงวิธีการของเรามีประสิทธิภาพดีกว่า
( ที่มีอยู่คนเดียว word2vec ) และดูแล ( wsabie ( เวสตัน et al . , 2011 ) การฝัง
วิธีการ และเส้นอื่นๆที่ hashtag
เราใช้งาน แล้วสัญญาณแบบทั่วไป โดยมีการถ่ายทอดเรียนรู้
เป็นตัวแทนไปงานส่วนบุคคล
เอกสารแนะนำ : สำหรับแต่ละผู้ใช้
M , N ปฏิสัมพันธ์ในเชิงบวกให้ก่อน
กับเอกสาร ( ชอบ , คลิก , ฯลฯ ) , ทำนาย
n 1'th เอกสารผู้ใช้จะบวกโต้ตอบ
ด้วย เพื่อแสดงในงานนี้ การแสดง
ควรจับผู้ใช้สนใจ
เนื้อหาต้นฉบับเดิม เราพบตัวแทนการฝึกอบรมในการทำนายน้ำหนักแทน
hashtag จากการเรียนรู้แบบไม่มีผู้สอน และสถาปัตยกรรมคอนของเรามีประสิทธิภาพดีกว่า wsabie
การฝึกอบรมในงานแฮ็ชแท็กเดียวกัน
การแปล กรุณารอสักครู่..
