6. RELATEDWORK
The problem of identifying sentiment behavior in demographic groups has been traditionally addressed by polling. Polling requires long-term monitoring of a large sample of the population in order to allow for a meaningful comparison of sentiments among demographic groups. However, this process is rather expensive and error-prone[8,6]. Therefore, many scientists look towards evaluating online sentiments, especially considering their existing correlation with actual opinions.
Online sentiments monitoring has been approached by scientists using a variety of data mining algorithms, from trend monitoring [18] to contradiction detection [11, 16], although these studies were not specifically accounting for relationships between demographic groups, their sentiment’s correlation and hierarchical organization.
Recently, the work of Das et al. [2] introduced complex mining of sentiment data in the form of ratings, where the authors aimed at extracting meaningful demographic patterns. Our work differs in that we study the complementary problem of extracting groups with correlated sentiments overtime, that is, groups that react similarly overtime to external events. Then, this kind of analysis can also help provide a more meaningful interpretation for the biases observed in the sentiments expressed by the different groups.
Zhang et al. [20] introduced a sentiment aggregation and visualization system, which interactively displays sentiments based on the selected geographical location. The system represents a world map featuring a time evolution of sentiments expressed in news articles coming from different geographical regions. It automatically retrieves and displays sentiments around some particular time period for ad-hoc queries, aggregating them over different locations as the user navigates the map, or zooms in and out. However, it only targets small-scale data aggregation using a single demographics hierarchy. A work of Mandel et al. [6] is a step up in this direction, featuring sentiment aggregation over time for demographic groups formed by gender and location attributes. The authors analyzed Twitter messages for hurricane Irene and revealed sentiment differences among demographic groups. Their study suggested a necessity to account for classification errors (sentiment noise) and sentiment biases, thus forestalling our analysis, which addresses both of these problems.
Problems related to the identification of correlations among multiple time series have been studied by the data streams community, using a variety of techniques. These techniques focused on the efficient computation [21, 7], hidden variables [9], local correlations [10], pruning of candidate pairs [1], and lagged correlations [12]. Among them, Stat Stream [21] is the one that is closest to our work. Stat Stream computes correlations using sliding time intervals of specified sizes, composed of a number of sub-intervals of fixed length. It employs the Discrete Fourier Transformation (DFT) to compute correlations in an approximate and incremental manner. Our solution is different from the above works in a number of ways: (a) it analyzes time series using multiple aggregation granularities and detects correlations on ad-hoc time intervals; (b) it applies effective top down pruning both on time and demographics hierarchies; and (c) it uses correlation compression techniques to achieve efficiency and scalability.
6. RELATEDWORK The problem of identifying sentiment behavior in demographic groups has been traditionally addressed by polling. Polling requires long-term monitoring of a large sample of the population in order to allow for a meaningful comparison of sentiments among demographic groups. However, this process is rather expensive and error-prone[8,6]. Therefore, many scientists look towards evaluating online sentiments, especially considering their existing correlation with actual opinions. Online sentiments monitoring has been approached by scientists using a variety of data mining algorithms, from trend monitoring [18] to contradiction detection [11, 16], although these studies were not specifically accounting for relationships between demographic groups, their sentiment’s correlation and hierarchical organization. Recently, the work of Das et al. [2] introduced complex mining of sentiment data in the form of ratings, where the authors aimed at extracting meaningful demographic patterns. Our work differs in that we study the complementary problem of extracting groups with correlated sentiments overtime, that is, groups that react similarly overtime to external events. Then, this kind of analysis can also help provide a more meaningful interpretation for the biases observed in the sentiments expressed by the different groups. Zhang et al. [20] introduced a sentiment aggregation and visualization system, which interactively displays sentiments based on the selected geographical location. The system represents a world map featuring a time evolution of sentiments expressed in news articles coming from different geographical regions. It automatically retrieves and displays sentiments around some particular time period for ad-hoc queries, aggregating them over different locations as the user navigates the map, or zooms in and out. However, it only targets small-scale data aggregation using a single demographics hierarchy. A work of Mandel et al. [6] is a step up in this direction, featuring sentiment aggregation over time for demographic groups formed by gender and location attributes. The authors analyzed Twitter messages for hurricane Irene and revealed sentiment differences among demographic groups. Their study suggested a necessity to account for classification errors (sentiment noise) and sentiment biases, thus forestalling our analysis, which addresses both of these problems.Problems related to the identification of correlations among multiple time series have been studied by the data streams community, using a variety of techniques. These techniques focused on the efficient computation [21, 7], hidden variables [9], local correlations [10], pruning of candidate pairs [1], and lagged correlations [12]. Among them, Stat Stream [21] is the one that is closest to our work. Stat Stream computes correlations using sliding time intervals of specified sizes, composed of a number of sub-intervals of fixed length. It employs the Discrete Fourier Transformation (DFT) to compute correlations in an approximate and incremental manner. Our solution is different from the above works in a number of ways: (a) it analyzes time series using multiple aggregation granularities and detects correlations on ad-hoc time intervals; (b) it applies effective top down pruning both on time and demographics hierarchies; and (c) it uses correlation compression techniques to achieve efficiency and scalability.
การแปล กรุณารอสักครู่..

6. RELATEDWORK
ปัญหาในการระบุพฤติกรรมความเชื่อมั่นในกลุ่มประชากรที่ได้รับการแก้ไขแบบดั้งเดิมโดยการลงคะแนนเลือกตั้ง หน่วยเลือกตั้งต้องมีการตรวจสอบในระยะยาวของกลุ่มตัวอย่างที่มีขนาดใหญ่ของประชากรในการสั่งซื้อเพื่อให้สามารถเปรียบเทียบความหมายของความรู้สึกในหมู่กลุ่มประชากร อย่างไรก็ตามขั้นตอนนี้ค่อนข้างมีราคาแพงและผิดพลาดได้ง่าย [8,6] ดังนั้นนักวิทยาศาสตร์หลายคนมองไปที่การประเมินความรู้สึกออนไลน์โดยเฉพาะการพิจารณาความสัมพันธ์ที่มีอยู่ของพวกเขาด้วยกับความคิดเห็นที่เกิดขึ้นจริง.
ตรวจสอบความรู้สึกออนไลน์ที่ได้รับการทาบทามจากนักวิทยาศาสตร์โดยใช้ความหลากหลายของขั้นตอนวิธีการทำเหมืองข้อมูลจากแนวโน้มการตรวจสอบ [18] การขัดการตรวจสอบ [11, 16] ถึงแม้ว่าการศึกษาเหล่านี้ไม่ได้ speci Fi ถอนรากถอนโคนบัญชีสำหรับความสัมพันธ์ระหว่างกลุ่มประชากรความสัมพันธ์ความเชื่อมั่นของพวกเขาและองค์กรลำดับชั้น.
เมื่อเร็ว ๆ นี้การทำงานของดา et al, [2] แนะนำการทำเหมืองแร่ที่ซับซ้อนของข้อมูลความเชื่อมั่นในรูปแบบของการจัดอันดับที่ผู้เขียนมุ่งเป้าไปที่การแยกรูปแบบที่มีความหมายทางด้านประชากรศาสตร์ การทำงานของเราจะแตกต่างกันในการที่เราศึกษาปัญหาที่สมบูรณ์ของการแยกกลุ่มที่มีความรู้สึกมีความสัมพันธ์การทำงานล่วงเวลาว่ามีกลุ่มที่ตอบสนองในทำนองเดียวกันการทำงานล่วงเวลากับเหตุการณ์ภายนอก จากนั้นชนิดของการวิเคราะห์นี้ยังสามารถช่วยให้การตีความความหมายมากขึ้นสำหรับอคติข้อสังเกตในความรู้สึกที่แสดงออกโดยกลุ่มที่แตกต่างกัน.
Zhang et al, [20] แนะนำรวมความเชื่อมั่นและการสร้างภาพของระบบซึ่งโต้ตอบแสดงความรู้สึกตามสถานที่ตั้งทางภูมิศาสตร์ที่เลือก ระบบหมายถึงแผนที่โลกที่มีเวลาวิวัฒนาการของความรู้สึกที่แสดงออกในบทความข่าวที่มาจากพื้นที่ทางภูมิศาสตร์ที่แตกต่างกัน โดยจะดึงและการแสดงความรู้สึกของรอบระยะเวลาบางส่วนโดยเฉพาะอย่างยิ่งสำหรับการค้นหาเฉพาะกิจรวมพวกเขามากกว่าสถานที่ที่แตกต่างกันเป็นผู้ใช้นำทางแผนที่หรือซูมเข้าและออก แต่ก็จะมีเป้าหมายเพียงขนาดเล็กรวมข้อมูลโดยใช้ลำดับชั้นของประชากรเดียว เป็นงาน Mandel et al, [6] เป็นขั้นตอนที่ขึ้นมาในทิศทางนี้มีการรวมความเชื่อมั่นในช่วงเวลาสำหรับกลุ่มประชากรที่เกิดขึ้นจากเพศและสถานที่แอตทริบิวต์ ผู้เขียนวิเคราะห์ข้อความ Twitter สำหรับพายุเฮอริเคนไอรีนและเผยให้เห็นความแตกต่างของความเชื่อมั่นในหมู่กลุ่มประชากร การศึกษาชี้ให้เห็นความจำเป็นในการบัญชีสำหรับข้อผิดพลาดไอออนจัดประเภท Fi (เสียงความเชื่อมั่น) และอคติความเชื่อมั่นจึง forestalling การวิเคราะห์ของเราที่อยู่ที่ทั้งสองของปัญหาเหล่านี้.
ปัญหาที่เกี่ยวข้องกับไอออนบวก Fi ระบุของความสัมพันธ์ระหว่างอนุกรมเวลาหลายได้รับการศึกษาโดยชุมชนกระแสข้อมูล โดยใช้ความหลากหลายของเทคนิค เทคนิคเหล่านี้มุ่งเน้นไปที่การคำนวณ EF Fi ประสิทธิภาพ [21 7] ตัวแปรที่ซ่อนอยู่ [9] ความสัมพันธ์ท้องถิ่น [10], การตัดแต่งกิ่งของคู่ผู้สมัคร [1] และ lagged ความสัมพันธ์ [12] ในหมู่พวกเขา Stat สตรีม [21] เป็นหนึ่งในที่ใกล้เคียงกับการทำงานของเรา สถิติของกระแสคำนวณความสัมพันธ์โดยใช้การเลื่อนช่วงเวลาของ speci ขนาด Fi เอ็ดประกอบด้วยจำนวนของ Sub-ช่วงเวลาของความยาวคงที่ มันมีพนักงานไม่ต่อเนื่องฟูริเยร์แปลง (DFT) เพื่อคำนวณความสัมพันธ์ในลักษณะที่ประมาณและที่เพิ่มขึ้น แก้ปัญหาของเราจะแตกต่างจากผลงานดังกล่าวข้างต้นในหลายวิธีดังนี้ (ก) มันวิเคราะห์อนุกรมเวลาโดยใช้รายละเอียดการรวมหลาย ๆ และตรวจสอบความสัมพันธ์ในช่วงเวลาเฉพาะกิจ; (ข) จะนำไปใช้ด้านบนที่มีประสิทธิภาพในการตัดแต่งกิ่งลงทั้งในเวลาและลำดับชั้นของประชากร; และ (ค) จะใช้เทคนิคการบีบอัดเพื่อให้บรรลุความสัมพันธ์ ciency Fi EF และความยืดหยุ่น
การแปล กรุณารอสักครู่..

6 . relatedworkปัญหาของการระบุพฤติกรรมความเชื่อมั่นในกลุ่มประชากรที่ได้รับการแบบดั้งเดิมที่ระบุ โดยโพลล์ . เลือกตั้งที่ต้องติดตามในระยะยาวของตัวอย่างขนาดใหญ่ของประชากร เพื่อให้มีการเปรียบเทียบความหมายของทัศนคติระหว่างกลุ่มประชากร อย่างไรก็ตาม กระบวนการนี้จะค่อนข้างแพงและแนวโน้มข้อผิดพลาด [ 8 , 6 ] ดังนั้น นักวิทยาศาสตร์หลายคนมองไปที่การประเมินความรู้สึกออนไลน์ โดยเฉพาะอย่างยิ่งการพิจารณาความสัมพันธ์กับความคิดเห็นของพวกเขาที่มีอยู่จริงตรวจสอบความรู้สึกออนไลน์ถูกทาบทามโดยนักวิทยาศาสตร์ใช้ความหลากหลายของขั้นตอนวิธีการทำเหมืองข้อมูล จากการตรวจสอบ [ 18 ] ความขัดแย้งตรวจจับ [ 11 , 16 ] แนวโน้ม แม้ว่าการศึกษาเหล่านี้ไม่ได้กาจึงบัญชีคอลลี่สำหรับความสัมพันธ์ระหว่างกลุ่มประชากร , ความสัมพันธ์ของพวกเขาความรู้สึกขององค์กรและลำดับชั้น .เมื่อเร็วๆ นี้ งานของดาส et al . [ 2 ] แนะนำการทำเหมืองแร่ที่ซับซ้อนของข้อมูลความเชื่อมั่นในรูปแบบของคะแนนที่ผู้เขียนมุ่งสกัดรูปแบบส่วนบุคคลที่มีความหมาย งานของเราแตกต่างที่เราศึกษาปัญหาแบบแยกกลุ่มกับความสัมพันธ์ความรู้สึกล่วงเวลา คือกลุ่มที่ตอบสนองเหมือนกันงานเหตุการณ์ภายนอก แล้วแบบนี้ยังสามารถช่วยให้วิเคราะห์ตีความมีความหมายสำหรับอคติและความรู้สึกที่แสดงออกโดยกลุ่มที่แตกต่างกันZhang et al . [ 20 ] แนะนำระบบของอารมณ์และการแสดง ซึ่งโต้ตอบแสดงความรู้สึกตามเลือกที่ตั้งทางภูมิศาสตร์ . ระบบแสดงแผนที่โลกที่มีเวลาวิวัฒนาการของความรู้สึกที่แสดงออกในข่าวที่มาจากภูมิภาคทางภูมิศาสตร์ที่แตกต่างกัน โดยอัตโนมัติดึงและแสดงความรู้สึกบางอย่างโดยเฉพาะรอบระยะเวลาของการสอบถาม รวมกันไปสถานที่ต่างๆที่ผู้ใช้นำทางแผนที่ หรือซูมเข้าและออก แต่เพียงเป้าหมายข้อมูลรวมขนาดเล็กโดยใช้ลำดับชั้นของประชากรเดียว งานของเมนเดล et al . [ 6 ] เป็นขั้นตอนในทิศทางนี้มีความเชื่อมั่นรวมช่วงเวลาสำหรับประชากรกลุ่มที่ก่อตั้งโดยเพศ และลักษณะสถานที่ ผู้เขียนวิเคราะห์ Twitter ข้อความสำหรับพายุเฮอริเคนไอรีน และเปิดเผยความรู้สึกแตกต่างระหว่างกลุ่มประชากร การศึกษาชี้ให้เห็นความจำเป็นไปยังบัญชีสำหรับการถ่ายทอด classi ข้อผิดพลาด ( เสียง Sentiment ) และความรู้สึกอคติ จึง forestalling การวิเคราะห์ของเรา ซึ่งที่อยู่ทั้งของปัญหาเหล่านี้ปัญหาที่เกี่ยวข้องกับการ identi จึงประจุบวกของความสัมพันธ์ระหว่างข้อมูลอนุกรมเวลาหลายได้รับการศึกษาโดยกระแสข้อมูลชุมชน โดยใช้ความหลากหลายของเทคนิค เทคนิคเหล่านี้เน้น EF จึง cient การคำนวณ [ 21 , 7 ] , [ 9 ] ซ่อนตัวแปรท้องถิ่น ความสัมพันธ์ [ 10 ] ตัดแต่งกิ่งของผู้สมัครคู่ [ 1 ] และล้าหลัง ความสัมพันธ์ [ 12 ] ในหมู่พวกเขา , stat กระแส [ 21 ] เป็นหนึ่งที่ใกล้เคียงกับงานของเรา กระแสที่ใช้คำนวณ stat ความสัมพันธ์เลื่อนระยะเวลากาจึงเอ็ดขนาด ประกอบด้วยหมายเลขของซับช่วงเวลาจึง xed ความยาว ซึ่งไม่ต่อเนื่องฟูเรียร์แปลง ( DFT ) ค่าสหสัมพันธ์ในการประมาณและลักษณะที่เพิ่มขึ้น . โซลูชั่นของเราจะแตกต่างจากผลงานข้างต้นในหลายวิธี : ( 1 ) การวิเคราะห์อนุกรมเวลาโดยใช้ granularities รวมหลายและตรวจพบความสัมพันธ์ในช่วงเวลาของ ; ( b ) ก็ใช้ที่มีประสิทธิภาพด้านบนลงมาตัดทั้งในเวลาและประชากรชนชั้น และ ( c ) จะใช้เทคนิคการบีบอัดเพื่อให้บรรลุประสิทธิภาพและจึง EF ความสัมพันธ์ กล่าว
การแปล กรุณารอสักครู่..
