DATA PRE-PROCESSING
The first step in big data analysis is data pre-processing
(data cleaning), which involves crucial steps for preparing the
data for analysis, e.g., data extraction, selection, reduction,
transformation etc. [18]. Our data pre-processing steps are
described below.
A. Data Gathering
Data was gathered using a website called Twimemachine
[15], which allows you to fetch the latest tweets of a user.
However, it only fetches around 3200 latest tweets of a user.
This cap was enough for us as we only needed data from
January 2013 - May 2013 till the Election Day, that is, May
11. For most users' timelines, this was enough. As mentioned
in Section I, we concentrated on tweets related to three
political parties which were significantly tweeted, i.e.,
Pakistan Tehreek-e-Insaaf (PTI), Pakistan Muslim League
Nawaz (PMLN), and Muttahida Qaumi Movement (MQM).
Visual Analysis:
After observing, tweets of around 50 relevant users, for
around two to three weeks, we decided to fetch tweets of 24
users, 15 of which were political analysts and 9 were normal
everyday users. We selected these users based on the content
of their tweets, i.e., we deemed their tweets most relevant for
electoral prediction. This activity got us approximately 55000
tweets out of which only 9000 were relevant with respect to
the attributes we considered important for a tweet to be
political. Some of these attributes are highlighted in Figure 1.
Many of them were popular hash tags that were trending on
Twitter during the election period. Others were frequently
used terms or names of political parties and politicians.
ประมวลผลข้อมูลก่อน
ข้อมูลก่อนประมวลผล
(data cleaning) ซึ่งเกี่ยวข้องกับขั้นตอนสำคัญสำหรับการเตรียมเป็นขั้นตอนแรกในการวิเคราะห์ข้อมูลขนาดใหญ่
ข้อมูลสำหรับการวิเคราะห์ เช่น การดึงข้อมูล การเลือก การ ลด,
แปลงฯลฯ [18] มีข้อมูลก่อนประมวลผลขั้นตอน
อธิบายไว้ด้านล่าง.
รวบรวมข้อมูล A.
ข้อมูลถูกรวบรวมโดยใช้เว็บไซต์ที่เรียกว่า Twimemachine
[15], ซึ่งช่วยให้คุณสามารถนำเข้ามาล่าสุดของผู้ใช้ได้
อย่างไรก็ตาม มันเท่าดสูงประมาณ 3200 เข้ามาล่าสุดของผู้ใช้ได้
หมวกนี้ก็เพียงพอแล้วสำหรับเรา ตามที่เราต้องการข้อมูลจากเท่า
2013 มกราคม-2013 พฤษภาคมจนถึงวันเลือกตั้ง คือ อาจ
11 ในเส้นเวลาของผู้ใช้มากที่สุด นี้ก็เพียงพอแล้ว ตาม
ในส่วนฉัน เราเข้มข้นในการเข้ามาเกี่ยวข้องกับ 3
พรรคการเมืองซึ่งถูกมาก tweeted, i.e.,
Pakistan Tehreek-e-Insaaf (PTI), ลีมุสลิมปากีสถาน
Nawaz (PMLN), และ Muttahida Qaumi เคลื่อนไหว (MQM) .
วิเคราะห์ภาพ:
หลังจากการสังเกต การเข้ามาของผู้เกี่ยวข้องประมาณ 50 สำหรับ
ประมาณสองถึงสามสัปดาห์ เราตัดสินใจที่จะนำเข้ามาของ 24
15 ซึ่งมีนักวิเคราะห์ทางการเมืองผู้ใช้ และ 9 ได้ปกติ
ผู้ใช้ชีวิตประจำวัน เราเลือกผู้ใช้เหล่านี้โดย
ของฟีดของพวกเขา เช่น เราถือว่าการเข้ามาเกี่ยวข้องมากที่สุดสำหรับ
ทำนายเลือกตั้ง เราประมาณ 55000 ที่กิจกรรมนี้ได้
เข้ามาจากที่เดียว 9000 เกี่ยวข้องกับ respect กับ
แอตทริบิวต์ที่เราพิจารณาว่าสำคัญสำหรับ tweet ให้
ทางการเมือง บางแอตทริบิวต์เหล่านี้จะถูกเน้นในรูปที่ 1.
หลายของพวกเขาถูกแท็กยอดนิยมแฮที่ถูก trending ใน
ทวิตเตอร์ช่วงเลือกตั้ง ผู้อื่นได้บ่อย
ใช้เงื่อนไขหรือชื่อพรรคการเมืองและนักการเมือง
การแปล กรุณารอสักครู่..
