6. RELATEDWORK
The problem of identifying sentiment behavior in demographic groups has been traditionally addressed by polling. Polling requires long-term monitoring of a large sample of the population in order to allow for a meaningful comparison of sentiments among demographic groups. However, this process is rather expensive and error-prone[8,6]. Therefore, many scientists look towards evaluating online sentiments, especially considering their existing correlation with actual opinions.
Online sentiments monitoring has been approached by scientists using a variety of data mining algorithms, from trend monitoring [18] to contradiction detection [11, 16], although these studies were not specifically accounting for relationships between demographic groups, their sentiment’s correlation and hierarchical organization.
Recently, the work of Das et al. [2] introduced complex mining of sentiment data in the form of ratings, where the authors aimed at extracting meaningful demographic patterns. Our work differs in that we study the complementary problem of extracting groups with correlated sentiments overtime, that is, groups that react similarly overtime to external events. Then, this kind of analysis can also help provide a more meaningful interpretation for the biases observed in the sentiments expressed by the different groups.
Zhang et al. [20] introduced a sentiment aggregation and visualization system, which interactively displays sentiments based on the selected geographical location. The system represents a world map featuring a time evolution of sentiments expressed in news articles coming from different geographical regions. It automatically retrieves and displays sentiments around some particular time period for ad-hoc queries, aggregating them over different locations as the user navigates the map, or zooms in and out. However, it only targets small-scale data aggregation using a single demographics hierarchy. A work of Mandel et al. [6] is a step up in this direction, featuring sentiment aggregation over time for demographic groups formed by gender and location attributes. The authors analyzed Twitter messages for hurricane Irene and revealed sentiment differences among demographic groups. Their study suggested a necessity to account for classification errors (sentiment noise) and sentiment biases, thus forestalling our analysis, which addresses both of these problems.
Problems related to the identification of correlations among multiple time series have been studied by the data streams community, using a variety of techniques. These techniques focused on the efficient computation [21, 7], hidden variables [9], local correlations [10], pruning of candidate pairs [1], and lagged correlations [12]. Among them, Stat Stream [21] is the one that is closest to our work. Stat Stream computes correlations using sliding time intervals of specified sizes, composed of a number of sub-intervals of fixed length. It employs the Discrete Fourier Transformation (DFT) to compute correlations in an approximate and incremental manner. Our solution is different from the above works in a number of ways: (a) it analyzes time series using multiple aggregation granularities and detects correlations on ad-hoc time intervals; (b) it applies effective top down pruning both on time and demographics hierarchies; and (c) it uses correlation compression techniques to achieve efficiency and scalability.
6. RELATEDWORK ปัญหาการระบุลักษณะการทำงานความเชื่อมั่นในกลุ่มประชากรได้ถูกส่ง โดยโพลล์แบบดั้งเดิม โพลล์ต้องตรวจสอบระยะยาวตัวอย่างขนาดใหญ่ของประชากรเพื่อให้สำหรับการเปรียบเทียบความหมายของความรู้สึกระหว่างกลุ่มประชากร อย่างไรก็ตาม กระบวนการนี้จะค่อนข้างแพง และ โอกาสผิดพลาด [8,6] ดังนั้น นักวิทยาศาสตร์จำนวนมากได้ไปประเมินความรู้สึกทางออนไลน์ โดยเฉพาะการพิจารณาความสัมพันธ์ของพวกเขาอยู่ ด้วยความเห็นจริง ความรู้สึกที่ออนไลน์ตรวจสอบได้รับการทาบทาม โดยนักวิทยาศาสตร์ที่ใช้ความหลากหลายของอัลกอริทึมการทำเหมืองข้อมูล จากแนวโน้มการตรวจสอบ [18] เพื่อการตรวจหาความขัดแย้ง [11, 16], แม้ว่าการศึกษาเหล่านี้ไม่ได้บัญชีสำหรับความสัมพันธ์ระหว่างกลุ่มประชากร ความเชื่อมั่นของความสัมพันธ์ และลำดับชั้นองค์กร specifically เมื่อเร็ว ๆ นี้ การทำงานของ Das et al. [2] แนะนำทำเหมืองข้อมูลความเชื่อมั่นในรูปแบบของการจัดอันดับ ที่ผู้เขียนมุ่งสกัดรูปแบบประชากรที่มีความหมายซับซ้อน งานของเราแตกต่างที่เราศึกษาปัญหาเสริมการสกัดกลุ่ม ด้วยความรู้สึกที่มีความสัมพันธ์ทำงานล่วงเวลา คือ กลุ่มที่ตอบสนองต่อเวลาในทำนองเดียวกันกับเหตุการณ์ภายนอก แล้ว ชนิดของการวิเคราะห์นี้สามารถช่วยให้การตีความมีความหมายควรสังเกตในความรู้สึกที่แสดงออกตามกลุ่มต่าง ๆ Zhang et al. [20] แนะนำความเชื่อมั่นการรวมและการมองเห็นระบบ ซึ่งมีการโต้ตอบแสดงความรู้สึกตามตำแหน่งที่ตั้งทางภูมิศาสตร์ที่เลือก ระบบแสดงแผนที่โลกแห่งวิวัฒนาการเป็นเวลาของความรู้สึกที่แสดงในบทความข่าวที่มาจากภูมิภาคทางภูมิศาสตร์ที่แตกต่างกัน มันดึงข้อมูล และแสดงความรู้สึกรอบบางรอบระยะเวลาเฉพาะสำหรับแบบสอบถามกิจ รวมผ่านสถานต่าง ๆ ตามที่ผู้ใช้แผนที่นำทางยัง หรือซูมเข้าและออกโดยอัตโนมัติ อย่างไรก็ตาม มันเพียงเป้าหมายการรวมข้อมูลขนาดเล็กที่ใช้ลำดับชั้นข้อมูลประชากรเดียว การทำงานของ Mandel et al. [6] เป็นขั้นตอนที่ขึ้นในทิศทางนี้ มีความเชื่อมั่นรวมเวลาสำหรับกลุ่มประชากรที่เกิดจากการแอตทริบิวต์เพศและตำแหน่ง ผู้เขียนวิเคราะห์ข้อความทวิตเตอร์สำหรับพายุเฮอริเคนไอรีน และเปิดเผยความเชื่อมั่นความแตกต่างระหว่างกลุ่มประชากร การศึกษาแนะนำสิ่งจำเป็นสำหรับข้อผิดพลาด classification (เสียงความเชื่อมั่น) และอคติความเชื่อมั่น forestalling การวิเคราะห์ของเรา ที่เน้นปัญหาเหล่านี้ทั้งสองดังนั้นปัญหาที่เกี่ยวข้องกับ identification ของความสัมพันธ์ระหว่างเวลาหลายชุดได้รับการศึกษา โดยชุมชนสตรีมข้อมูล ใช้เทคนิคที่หลากหลาย เทคนิคเหล่านี้มุ่งเน้นการคำนวณประสิทธิผล [21, 7], ตัวแปรซ่อนอยู่ [9], ท้องถิ่นสัมพันธ์ [10] ตัดผู้สมัครคู่ [1], และ lagged สัมพันธ์ [12] ในหมู่พวกเขา สถิติสตรีม [21] เป็นหนึ่งที่ใกล้เคียงที่สุดกับงานของ กระแสข้อมูลสถิติคำนวณความสัมพันธ์โดยใช้ช่วงเวลาเลื่อนขนาด specified ประกอบด้วยจำนวนของช่วงย่อยความยาว fixed มีการแบ่งแยกฟูริเยร์การแปลง (DFT) จะคำนวณความสัมพันธ์ในลักษณะใกล้เคียง และเพิ่ม โซลูชันของเราจะแตกต่างจากงานข้างต้นในหลายวิธี: ได้วิเคราะห์อนุกรมเวลาโดยใช้หลายการรวม granularities และตรวจพบความสัมพันธ์ในช่วงเวลากิจ (ข) ใช้ด้านบนมีประสิทธิภาพลงตัดแต่งกิ่งทั้งในเวลาและข้อมูลประชากรลำดับชั้น และ (ค) ใช้เทคนิคการบีบอัดความสัมพันธ์เพื่อให้บรรลุ efficiency และภาระ
การแปล กรุณารอสักครู่..
6. RELATEDWORK
ปัญหาในการระบุพฤติกรรมความเชื่อมั่นในกลุ่มประชากรที่ได้รับการแก้ไขแบบดั้งเดิมโดยการลงคะแนนเลือกตั้ง หน่วยเลือกตั้งต้องมีการตรวจสอบในระยะยาวของกลุ่มตัวอย่างที่มีขนาดใหญ่ของประชากรในการสั่งซื้อเพื่อให้สามารถเปรียบเทียบความหมายของความรู้สึกในหมู่กลุ่มประชากร อย่างไรก็ตามขั้นตอนนี้ค่อนข้างมีราคาแพงและผิดพลาดได้ง่าย [8,6] ดังนั้นนักวิทยาศาสตร์หลายคนมองไปที่การประเมินความรู้สึกออนไลน์โดยเฉพาะการพิจารณาความสัมพันธ์ที่มีอยู่ของพวกเขาด้วยกับความคิดเห็นที่เกิดขึ้นจริง.
ตรวจสอบความรู้สึกออนไลน์ที่ได้รับการทาบทามจากนักวิทยาศาสตร์โดยใช้ความหลากหลายของขั้นตอนวิธีการทำเหมืองข้อมูลจากแนวโน้มการตรวจสอบ [18] การขัดการตรวจสอบ [11, 16] ถึงแม้ว่าการศึกษาเหล่านี้ไม่ได้ speci Fi ถอนรากถอนโคนบัญชีสำหรับความสัมพันธ์ระหว่างกลุ่มประชากรความสัมพันธ์ความเชื่อมั่นของพวกเขาและองค์กรลำดับชั้น.
เมื่อเร็ว ๆ นี้การทำงานของดา et al, [2] แนะนำการทำเหมืองแร่ที่ซับซ้อนของข้อมูลความเชื่อมั่นในรูปแบบของการจัดอันดับที่ผู้เขียนมุ่งเป้าไปที่การแยกรูปแบบที่มีความหมายทางด้านประชากรศาสตร์ การทำงานของเราจะแตกต่างกันในการที่เราศึกษาปัญหาที่สมบูรณ์ของการแยกกลุ่มที่มีความรู้สึกมีความสัมพันธ์การทำงานล่วงเวลาว่ามีกลุ่มที่ตอบสนองในทำนองเดียวกันการทำงานล่วงเวลากับเหตุการณ์ภายนอก จากนั้นชนิดของการวิเคราะห์นี้ยังสามารถช่วยให้การตีความความหมายมากขึ้นสำหรับอคติข้อสังเกตในความรู้สึกที่แสดงออกโดยกลุ่มที่แตกต่างกัน.
Zhang et al, [20] แนะนำรวมความเชื่อมั่นและการสร้างภาพของระบบซึ่งโต้ตอบแสดงความรู้สึกตามสถานที่ตั้งทางภูมิศาสตร์ที่เลือก ระบบหมายถึงแผนที่โลกที่มีเวลาวิวัฒนาการของความรู้สึกที่แสดงออกในบทความข่าวที่มาจากพื้นที่ทางภูมิศาสตร์ที่แตกต่างกัน โดยจะดึงและการแสดงความรู้สึกของรอบระยะเวลาบางส่วนโดยเฉพาะอย่างยิ่งสำหรับการค้นหาเฉพาะกิจรวมพวกเขามากกว่าสถานที่ที่แตกต่างกันเป็นผู้ใช้นำทางแผนที่หรือซูมเข้าและออก แต่ก็จะมีเป้าหมายเพียงขนาดเล็กรวมข้อมูลโดยใช้ลำดับชั้นของประชากรเดียว เป็นงาน Mandel et al, [6] เป็นขั้นตอนที่ขึ้นมาในทิศทางนี้มีการรวมความเชื่อมั่นในช่วงเวลาสำหรับกลุ่มประชากรที่เกิดขึ้นจากเพศและสถานที่แอตทริบิวต์ ผู้เขียนวิเคราะห์ข้อความ Twitter สำหรับพายุเฮอริเคนไอรีนและเผยให้เห็นความแตกต่างของความเชื่อมั่นในหมู่กลุ่มประชากร การศึกษาชี้ให้เห็นความจำเป็นในการบัญชีสำหรับข้อผิดพลาดไอออนจัดประเภท Fi (เสียงความเชื่อมั่น) และอคติความเชื่อมั่นจึง forestalling การวิเคราะห์ของเราที่อยู่ที่ทั้งสองของปัญหาเหล่านี้.
ปัญหาที่เกี่ยวข้องกับไอออนบวก Fi ระบุของความสัมพันธ์ระหว่างอนุกรมเวลาหลายได้รับการศึกษาโดยชุมชนกระแสข้อมูล โดยใช้ความหลากหลายของเทคนิค เทคนิคเหล่านี้มุ่งเน้นไปที่การคำนวณ EF Fi ประสิทธิภาพ [21 7] ตัวแปรที่ซ่อนอยู่ [9] ความสัมพันธ์ท้องถิ่น [10], การตัดแต่งกิ่งของคู่ผู้สมัคร [1] และ lagged ความสัมพันธ์ [12] ในหมู่พวกเขา Stat สตรีม [21] เป็นหนึ่งในที่ใกล้เคียงกับการทำงานของเรา สถิติของกระแสคำนวณความสัมพันธ์โดยใช้การเลื่อนช่วงเวลาของ speci ขนาด Fi เอ็ดประกอบด้วยจำนวนของ Sub-ช่วงเวลาของความยาวคงที่ มันมีพนักงานไม่ต่อเนื่องฟูริเยร์แปลง (DFT) เพื่อคำนวณความสัมพันธ์ในลักษณะที่ประมาณและที่เพิ่มขึ้น แก้ปัญหาของเราจะแตกต่างจากผลงานดังกล่าวข้างต้นในหลายวิธีดังนี้ (ก) มันวิเคราะห์อนุกรมเวลาโดยใช้รายละเอียดการรวมหลาย ๆ และตรวจสอบความสัมพันธ์ในช่วงเวลาเฉพาะกิจ; (ข) จะนำไปใช้ด้านบนที่มีประสิทธิภาพในการตัดแต่งกิ่งลงทั้งในเวลาและลำดับชั้นของประชากร; และ (ค) จะใช้เทคนิคการบีบอัดเพื่อให้บรรลุความสัมพันธ์ ciency Fi EF และความยืดหยุ่น
การแปล กรุณารอสักครู่..
6 . relatedworkปัญหาของการระบุพฤติกรรมความเชื่อมั่นในกลุ่มประชากรที่ได้รับการแบบดั้งเดิมที่ระบุ โดยโพลล์ . เลือกตั้งที่ต้องติดตามในระยะยาวของตัวอย่างขนาดใหญ่ของประชากร เพื่อให้มีการเปรียบเทียบความหมายของทัศนคติระหว่างกลุ่มประชากร อย่างไรก็ตาม กระบวนการนี้จะค่อนข้างแพงและแนวโน้มข้อผิดพลาด [ 8 , 6 ] ดังนั้น นักวิทยาศาสตร์หลายคนมองไปที่การประเมินความรู้สึกออนไลน์ โดยเฉพาะอย่างยิ่งการพิจารณาความสัมพันธ์กับความคิดเห็นของพวกเขาที่มีอยู่จริงตรวจสอบความรู้สึกออนไลน์ถูกทาบทามโดยนักวิทยาศาสตร์ใช้ความหลากหลายของขั้นตอนวิธีการทำเหมืองข้อมูล จากการตรวจสอบ [ 18 ] ความขัดแย้งตรวจจับ [ 11 , 16 ] แนวโน้ม แม้ว่าการศึกษาเหล่านี้ไม่ได้กาจึงบัญชีคอลลี่สำหรับความสัมพันธ์ระหว่างกลุ่มประชากร , ความสัมพันธ์ของพวกเขาความรู้สึกขององค์กรและลำดับชั้น .เมื่อเร็วๆ นี้ งานของดาส et al . [ 2 ] แนะนำการทำเหมืองแร่ที่ซับซ้อนของข้อมูลความเชื่อมั่นในรูปแบบของคะแนนที่ผู้เขียนมุ่งสกัดรูปแบบส่วนบุคคลที่มีความหมาย งานของเราแตกต่างที่เราศึกษาปัญหาแบบแยกกลุ่มกับความสัมพันธ์ความรู้สึกล่วงเวลา คือกลุ่มที่ตอบสนองเหมือนกันงานเหตุการณ์ภายนอก แล้วแบบนี้ยังสามารถช่วยให้วิเคราะห์ตีความมีความหมายสำหรับอคติและความรู้สึกที่แสดงออกโดยกลุ่มที่แตกต่างกันZhang et al . [ 20 ] แนะนำระบบของอารมณ์และการแสดง ซึ่งโต้ตอบแสดงความรู้สึกตามเลือกที่ตั้งทางภูมิศาสตร์ . ระบบแสดงแผนที่โลกที่มีเวลาวิวัฒนาการของความรู้สึกที่แสดงออกในข่าวที่มาจากภูมิภาคทางภูมิศาสตร์ที่แตกต่างกัน โดยอัตโนมัติดึงและแสดงความรู้สึกบางอย่างโดยเฉพาะรอบระยะเวลาของการสอบถาม รวมกันไปสถานที่ต่างๆที่ผู้ใช้นำทางแผนที่ หรือซูมเข้าและออก แต่เพียงเป้าหมายข้อมูลรวมขนาดเล็กโดยใช้ลำดับชั้นของประชากรเดียว งานของเมนเดล et al . [ 6 ] เป็นขั้นตอนในทิศทางนี้มีความเชื่อมั่นรวมช่วงเวลาสำหรับประชากรกลุ่มที่ก่อตั้งโดยเพศ และลักษณะสถานที่ ผู้เขียนวิเคราะห์ Twitter ข้อความสำหรับพายุเฮอริเคนไอรีน และเปิดเผยความรู้สึกแตกต่างระหว่างกลุ่มประชากร การศึกษาชี้ให้เห็นความจำเป็นไปยังบัญชีสำหรับการถ่ายทอด classi ข้อผิดพลาด ( เสียง Sentiment ) และความรู้สึกอคติ จึง forestalling การวิเคราะห์ของเรา ซึ่งที่อยู่ทั้งของปัญหาเหล่านี้ปัญหาที่เกี่ยวข้องกับการ identi จึงประจุบวกของความสัมพันธ์ระหว่างข้อมูลอนุกรมเวลาหลายได้รับการศึกษาโดยกระแสข้อมูลชุมชน โดยใช้ความหลากหลายของเทคนิค เทคนิคเหล่านี้เน้น EF จึง cient การคำนวณ [ 21 , 7 ] , [ 9 ] ซ่อนตัวแปรท้องถิ่น ความสัมพันธ์ [ 10 ] ตัดแต่งกิ่งของผู้สมัครคู่ [ 1 ] และล้าหลัง ความสัมพันธ์ [ 12 ] ในหมู่พวกเขา , stat กระแส [ 21 ] เป็นหนึ่งที่ใกล้เคียงกับงานของเรา กระแสที่ใช้คำนวณ stat ความสัมพันธ์เลื่อนระยะเวลากาจึงเอ็ดขนาด ประกอบด้วยหมายเลขของซับช่วงเวลาจึง xed ความยาว ซึ่งไม่ต่อเนื่องฟูเรียร์แปลง ( DFT ) ค่าสหสัมพันธ์ในการประมาณและลักษณะที่เพิ่มขึ้น . โซลูชั่นของเราจะแตกต่างจากผลงานข้างต้นในหลายวิธี : ( 1 ) การวิเคราะห์อนุกรมเวลาโดยใช้ granularities รวมหลายและตรวจพบความสัมพันธ์ในช่วงเวลาของ ; ( b ) ก็ใช้ที่มีประสิทธิภาพด้านบนลงมาตัดทั้งในเวลาและประชากรชนชั้น และ ( c ) จะใช้เทคนิคการบีบอัดเพื่อให้บรรลุประสิทธิภาพและจึง EF ความสัมพันธ์ กล่าว
การแปล กรุณารอสักครู่..