Gender, geography, race, income, and a range of other social and economic factors all play a role in how information is produced and reproduced. People from different places and different backgrounds tend to produce different sorts of information. And so we risk ignoring a lot of important nuance if relying on big data as a social/economic/political mirror.
We can of course account for such bias by segmenting our data. Take the case of using Twitter to gain insights into last summer's London riots. About a third of all UK Internet users have a twitter profile; a subset of that group are the active tweeters who produce the bulk of content; and then a tiny subset of that group (about 1%) geocode their tweets (essential information if you want to know about where your information is coming from).
Despite the fact that we have a database of tens of millions of data points, we are necessarily working with subsets of subsets of subsets. Big data no longer seems so big. Such data thus serves to amplify the information produced by a small minority (a point repeatedly made by UCL's Muki Haklay), and skew, or even render invisible, ideas, trends, people, and patterns that aren't mirrored or represented in the datasets that we work with.
เพศ , ภูมิศาสตร์ , การแข่งขัน , รายได้ , และช่วงของปัจจัยทางเศรษฐกิจและสังคมอื่น ๆมีบทบาทในวิธีการที่ข้อมูลถูกผลิต และการขยายพันธุ์ . ผู้คนจากสถานที่ที่แตกต่างกันและภูมิหลังที่แตกต่างกันมีแนวโน้มที่จะผลิตประเภทที่แตกต่างกันของข้อมูล และเพื่อให้เราเสี่ยงมากที่สำคัญไม่นวล ถ้าอาศัยข้อมูลใหญ่เป็นกระจก สังคม / เศรษฐกิจ / การเมือง
แน่นอนเราสามารถบัญชีสำหรับอคติดังกล่าวโดยการแบ่งส่วนข้อมูลของเรา ใช้กรณีของการใช้ Twitter ที่จะได้รับข้อมูลเชิงลึกในช่วงฤดูร้อนลอนดอนจลาจล เรื่องที่สามของผู้ใช้อินเตอร์เน็ตในอังกฤษมี Twitter โปรไฟล์ ; ส่วนย่อยของกลุ่มจะใช้ทวีตเตอร์ที่ผลิตจำนวนมากของเนื้อหาแล้วบางส่วนเล็ก ๆของกลุ่มนั้น ( ประมาณ 1% ) ปัสสาวะ tweets ของพวกเขา ( ข้อมูลที่จำเป็นถ้าคุณต้องการทราบเกี่ยวกับข้อมูลของคุณมาจาก ) .
แม้จะมีความจริงที่ว่าเรามีฐานข้อมูลของหลายสิบล้านของจุดข้อมูล เราจะต้องทำงานกับชุดย่อยของชุดย่อยของข้อมูล . ข้อมูลใหญ่ไม่เหมือนมากข้อมูลดังกล่าวจึงทำหน้าที่ในการขยายข้อมูลที่ผลิตโดยชนกลุ่มน้อยขนาดเล็ก ( จุดที่ซ้ำ ๆโดย UCL ของมูกิ haklay ) และเอียง หรือแม้แต่ทำให้มองไม่เห็น , ความคิด , แนวโน้ม , คน , และลวดลายที่ไม่สะท้อนหรือแสดงในข้อมูลที่เราใช้งานด้วย
การแปล กรุณารอสักครู่..