4.3.1 Pruning Correlations
To find a pair of demographic groups with correlated sentiment, we have to evaluate all pairs of nodes in demographics lattice. However, we observe that correlation holds certain regularity properties on a demographics lattice and on time granularities, which are useful for pruning. We can apply pruning based on correlation estimates from the higher-granularity data (vertical pruning), and based on the observed part of the time series (horizontal pruning), as described below.
Vertical Pruning:
Given the DTree, we would like to be able to estimate correlations for a smaller time granularity based on the averages computed for a higher time granularity. This is possible using the Spruill and Gastwirth correlation estimation method, which relies on the Bartlett and Wald regression estimator.
LEMMA 1. The estimate l of correlation and its asymptotic standard deviation are computed using the following formula:
In the above equations, sU3 (sL3) and s"U3 (s"L3) are the averages of intermediate aggregates (d, p i) and s (d", pi) computed for i≥ 2n/3 (i≤n/3), where n is the number of intermediate aggregates. The factor c is linearly depending on l and n and is estimated using the tabulation data given in [13]. We note that all standard deviations and intermediate aggregates used in this formula are directly accessible in the DTree at every granularity level.
Horizontal pruning:
If both the correlation threshold l min and the time interval p of size n are known, then for every subinterval p1...pk, k
4.3.1 ตัดสัมพันธ์ เราต้องประเมินคู่ของโหนในประชากรตาข่ายกับคู่ของกลุ่มประชากรที่มีความเชื่อมั่นมีความสัมพันธ์ อย่างไรก็ตาม เราสังเกตว่า ความสัมพันธ์มีคุณสมบัติบางอย่างสม่ำเสมอ บนตาข่ายข้อมูลประชากร และเวลา granularities ซึ่งมีประโยชน์สำหรับการตัดแต่งกิ่ง เราสามารถใช้การตัดคะแนนจากการประเมินความสัมพันธ์จากข้อมูลความละเอียดสูง (ตัดแนวตั้ง), และอิงจากส่วนที่สังเกตของอนุกรมเวลา (แนวตัด), ตามที่อธิบายไว้ด้านล่าง ตัดแนวตั้ง: ได้รับการ DTree เราต้องสามารถประเมินความสัมพันธ์สำหรับเป็นส่วนประกอบเวลาเล็กอิงค่าเฉลี่ยที่คำนวณสำหรับเป็นส่วนประกอบเวลาสูง นี้เป็นไปได้โดยใช้ Spruill และ Gastwirth ความสัมพันธ์การประเมินวิธีการ ซึ่งอาศัยประมาณถดถอยบาร์ตเลตและวอลด์ หน่วยการที่ 1 L การประเมินความสัมพันธ์และความเบี่ยงเบนมาตรฐาน asymptotic จะคำนวณโดยใช้สูตรต่อไปนี้:ในสมการข้างต้น sU3 (sL3) และ s " U3 (s "L3) เป็นค่าเฉลี่ยของผลรวมระดับกลาง (d, p ผม) และ s (d ", pi) คำนวณสำหรับ i≥ 2n/3 (i≤n 3), โดยที่ n คือ จำนวนของผลกลาง C คูณเชิงเส้นขึ้นอยู่กับ l และ n และประมาณโดยใช้ข้อมูล tabulation ใน [13] เราทราบว่า ค่าเบี่ยงเบนมาตรฐานและระดับกลางผลรวมที่ใช้ในสูตรนี้ทั้งหมดสามารถเข้าถึงได้โดยตรงใน DTree ที่บด ตัดแนวนอน: ถ้าความสัมพันธ์เกณฑ์ลิตรนาทีและ p ช่วงเวลาของ n ขนาดเป็นที่รู้จัก แล้วสำหรับ p1 subinterval ทุก... pk, k หน่วยการ 2 ถ้า b และ b "มีความเบี่ยงเบนสูงสุดความเชื่อมั่น และการคูณภายในของความเชื่อมั่นความเบี่ยงเบน (s◦s") k 1 ที่จุด k น้อยกว่า (n l นาที m s m s"−(n-k) b s b s"), แล้ว l (s, s") < l นาที เราทราบว่า ประเมินความเบี่ยงเบนสูงสุดได้เฉพาะสำหรับชุด bounded ครั้ง นี้เป็นจริงในกรณีของเรา ที่จะแบ่งความรู้สึกระหว่าง [-1.1] ดังนั้น เราสามารถตั้งค่า b s = | s | 1 ซึ่งเกิดขึ้นเมื่อมีความเชื่อมั่นเป็นไกลที่สุดจากค่าเฉลี่ย (ทาการเบี่ยงเบนในทิศทางตรงกันข้าม) เช่นในกรณีของการตัดแนวตั้ง ค่าเบี่ยงเบนมาตรฐาน และค่าเฉลี่ย ค่าของชุดข้อมูลเวลา ใช้ในการประเมินข้างต้น จะถูกเก็บไว้ที่เป็นส่วนประกอบสูงขึ้นจึงมีโดยตรง และระดับในการ DTree
การแปล กรุณารอสักครู่..