is to identify the sources of big data possible to be used in offi cial statistics.
According to (HLG, 2013) large data sources that can be used in offi cial
statistics are:
• Administrative data;
• Commercial or transactional data, such as on-line transactions using
credit cards;
• Data provided by sensors (satellite imaging, climate sensors, etc.);
• Data provided by tracking devices (GPS, mobile devices, etc.);
• Behavioral data (for example Internet searches);
• Data provided by social media.
Using big data in offi cial statistics raises several challenges (HLG,
2013). Among them we ca mention: legislative issues, maintaining the privacy
of the data, fi nancial problems regarding the cost of sourcing data, data quality
and suitability of statistical methods and technological challenges. At this time
there are several international initiatives that try to outline an action plan for
using Big Data in offi cial statistics: Eurostat Task Force on Big Data, UNECE’s
Big data HLG project.
At this time there are some ongoing projects that already used big
data for developing new statistics implemented by statistical agencies. We can
mention (HLG, 2013):
• Traffi c and transport statistics computed by Statistics Netherlands
using traffi c loop detection records generated every day. There are
10,000 detection loops on Dutch roads that produce 100 million
records every day;
• Social media statistics computed also by Statistics Netherlands.
Dutch Twitter produces around 1 million public social media
messages on a daily basis. These messages were analyzed from the
perspective of content and sentiment;
• The software developed at Eurostat for price scrapping from the
Internet to assist in computing the Consumer Price Index;
• The Billion project developed at MIT (http://bpp.mit.edu/) is a
project that collect prices from retailers around the world to conduct
economic research;
• Tourism Statistics developed in Estonia by using mobile positioning
data (Ahas, 2013);
In this paper we will investigate a technological problem – we will
present a way of integrating Hadoop (White, 2012), a software framework
for distributed computing used for big data processing with R (R Core Team,
คือการระบุแหล่งที่มาของข้อมูลที่ใหญ่ที่สุดที่จะใช้ใน ้่สถิติ .
ตาม ( ที่ 2013 ) ขนาดใหญ่ แหล่งข้อมูลที่สามารถใช้ใน ้่สถิติ :
-
- การบริหารข้อมูล หรือข้อมูลการติดต่อทางการค้า เช่น การทำธุรกรรมออนไลน์โดยใช้
- บริการข้อมูลเครดิต การ์ด โดยเซ็นเซอร์ ( เซ็นเซอร์รับภาพ , ภูมิอากาศ , ฯลฯ ) ;
บริการข้อมูลที่มาจากอุปกรณ์ติดตาม ( GPS , อุปกรณ์มือถือ , ฯลฯ ) ;
- พฤติกรรมข้อมูล ( ตัวอย่างเช่นอินเทอร์เน็ตค้นหา ) ;
-
ข้อมูลให้สื่อสังคม โดยใช้ข้อมูลสถิติเพิ่มความท้าทายใหญ่ในราคาที่่หลายคน ( ที่
, 2013 ) ในหมู่พวกเขาเราสามารถพูดถึงประเด็นทางกฎหมาย , การรักษาความเป็นส่วนตัวของข้อมูล
ฟี nancial ปัญหาเกี่ยวกับต้นทุนของการจัดหาข้อมูล
คุณภาพข้อมูลและความเหมาะสมของวิธีการทางสถิติและความท้าทายเทคโนโลยี ในเวลานี้
มีหลายระหว่างประเทศ โดยลองร่างแผนการดําเนินการสําหรับ
โดยใช้ข้อมูลใหญ่้่สถิติของงานข้อมูลใหญ่ของ UNECE
ใหญ่ข้อมูลที่โครงการ
ในครั้งนี้มีโครงการต่อเนื่องที่ได้ใช้ใหญ่
ข้อมูลสำหรับการพัฒนา สถิติใหม่ดำเนินการโดยหน่วยงานทางสถิติ เราสามารถพูดถึง ( ที่ 2013 )
:
- traffi c และสถิติการขนส่งคำนวณโดยสถิติประเทศเนเธอร์แลนด์
ใช้ traffi C การสร้างลูปบันทึกทุกวัน มีการตรวจจับลูปบนถนน
10000 ดัตช์ที่ผลิต 100 ล้าน
บันทึกทุกวัน บริการสังคมสื่อทดสอบด้วยสถิติ
เนเธอร์แลนด์Twitter ดัตช์สร้างประมาณ 1 ล้านสื่อสาธารณะ
ข้อความทางสังคมบนพื้นฐานทุกวัน ข้อความเหล่านี้มาวิเคราะห์จากมุมมองของเนื้อหาและความเชื่อมั่น
;
- พัฒนาซอฟแวร์ที่ของราคาตั้งจาก
อินเทอร์เน็ตเพื่อช่วยในการคำนวณดัชนีราคาผู้บริโภค ;
- พันล้านโครงการพัฒนาที่ MIT ( http://bpp.mit.edu/
) คือโครงการที่รวบรวมราคาจากร้านค้าปลีกทั่วโลกเพื่อดำเนินการวิจัยเศรษฐกิจการท่องเที่ยว
; สถิติ - พัฒนาในเอสโตเนีย โดยใช้ข้อมูลตำแหน่ง
มือถือ ( AHAs , 2013 ) ;
ในบทความนี้เราจะตรวจสอบ–ปัญหาเทคโนโลยีเราจะ
ปัจจุบันวิธีการบูรณาการ Hadoop ( สีขาว , 2012 ) ,
กรอบซอฟต์แวร์ สำหรับการคำนวณแบบกระจายสำหรับใช้ขนาดใหญ่การประมวลผลข้อมูลกับทีมงานหลัก R ( R ,
การแปล กรุณารอสักครู่..
