เครื่องกำเนิดไฟฟ้าข้อมูลของเราสร้างไฟล์ที่ไม่ซ้ำกัน 155 ล้านระเบียน UserVisits (20GB / โหนด) และ 18 ล้านระเบียนการจัดอันดับ (1GB / โหนด)
ในแต่ละโหนด visitDate, adRevenue และสาขา sourceIP
จะเลือกเหมือนกันโดยการสุ่มจากช่วงที่เฉพาะเจาะจง สาขาอื่น ๆ
ทั้งหมดจะเลือกเหมือนกันจากการสุ่มตัวอย่างชุดข้อมูลที่แท้จริงของโลก
ข้อมูลแต่ละไฟล์จะถูกเก็บไว้ในแต่ละโหนดเป็นแฟ้มข้อความที่คั่นด้วยคอลัมน์