4. แอพลิเคชัน
การทดสอบของวิธีการเชื่อมโยงข้อมูล เราใช้วิธีตาม outlier สมาคมปัญหากับการชุดข้อมูลอาชญากรรมจริง ชุดข้อมูลประกอบด้วยข้อมูลเกี่ยวกับปัญหาการปล้นที่เกิดในปี 1998 ในริชมอนด์ VA ชุดข้อมูลประกอบด้วยสองส่วน: ชุดข้อมูลเหตุการณ์และชุดข้อมูลสงสัย ชุดข้อมูลเหตุการณ์มีระเบียน 1198 ชั่วคราว พื้นที่ และ MO ข้อมูลถูกเก็บไว้ในฐานข้อมูลการแก้ไขปัญหา ชื่อ (หากมี), ความสูง และข้อมูลน้ำหนักของผู้ต้องสงสัยจะถูกบันทึกในฐานข้อมูลสงสัย เราใช้วิธีการของเรากับชุดข้อมูลเหตุการณ์ และใช้ชุดข้อมูลสงสัยสำหรับการตรวจสอบ
เราเลือกปล้นในการศึกษานี้ด้วยเหตุผลสองประการ: ครั้งแรก เมื่อเทียบกับการก่ออาชญากรรมที่รุนแรงเช่นฆาตกรรมทำร้ายทางเพศ ประจำการโจรกรรมเกิดขึ้นบ่อย และสอง เทียบกับ entering และแบ่งอาชญากรรม ปล้นเหตุการณ์เพิ่มเติม "แก้ไข" (จับกุมอาชญากร) หรือ "บางส่วนแก้ไข" (ชื่อของผู้มีชื่อเสียง) จุดเหล่านี้สองทำโจรกรรมทางเลือกที่ดีสำหรับวัตถุประสงค์การประเมิน
4.1 การเลือกแอททริบิวต์
เราใช้สามชนิดของแอตทริบิวต์ในการวิเคราะห์ของเรา ชุดแรกของแอตทริบิวต์ประกอบด้วยคุณลักษณะ MO 6 MOs มักจะใช้ในการศึกษาความสัมพันธ์ปัญหาอาชญากรรม ชุดสองของแอตทริบิวต์ประกอบด้วยลักษณะประชากร (ประชากรได้รับจากซีดีสำนึกในไลบรารีของมหาวิทยาลัยเวอร์จิเนีย) ลักษณะประชากรให้เหมาะกับลักษณะของอาชญากรได้ ตัวอย่าง อาชญากรบางต้องการโจมตีพื้นที่ "ร่ำรวย" สุดท้าย เรารวมลักษณะการทำงานระยะทางในการวิเคราะห์ของเรา แอตทริบิวต์ระยะทางมีระยะห่างจากสถานที่เกิดเหตุการปริภูมิสถาน โรงเรียนหรือทางหลวงสำคัญ จากคุณลักษณะมีความสำคัญในการวิเคราะห์เนื่องจากอาจเป็นตัวแทนของลักษณะพื้นที่ของอาชญากร อาชญากรบางคนเริ่มโจมตีจากที่เป่าเฉพาะระยะนั้นไม่มีใครสามารถดูพวกเขาในระหว่างการโจมตี และพวกเขาสามารถออกฉากอาชญากรรมโดยเร็วที่สุดหลังจากการโจมตี ชื่อและคำอธิบายของคุณลักษณะเหล่านี้มีในภาคผนวกเอ แอตทริบิวต์เหล่านี้ก็ยังใช้ในการศึกษาก่อนหน้านี้คาดการณ์ entering และแบ่งอาชญากรรม [8]
เราทำกระบวนการเลือกแอททริบิวต์ในแอตทริบิวต์ตัวเลขทั้งหมด (ประชากร และห่างจากแอตทริบิวต์) ก่อนที่จะใช้วิธีเชื่อมโยงข้อมูลตาม outlier เราไม่ได้นี้เนื่องจากคุณลักษณะบางอย่างกำลัง analytically ความซ้ำซ้อนนี้ทำอัลกอริทึมความสัมพันธ์ในแง่ของประสิทธิภาพและความถูกต้อง เราใช้อัลกอริทึมระบบคลัสเตอร์จะรับแอตทริบิวต์ โดยเฉพาะ เราใช้สัมประสิทธิ์สหสัมพันธ์เป็นการวัดที่คล้ายคลึง หรือมีแอตทริบิวต์ที่สองปิด แล้ว เราจับกลุ่มแอททริบิวต์เป็นจำนวนกลุ่มตามการวัดความคล้ายคลึงกันนี้ แอตทริบิวต์ในกลุ่มเดียวกันได้เหมือนกัน และไม่แตกต่างจากแอตทริบิวต์ในกลุ่มอื่น ๆ สำหรับแต่ละกลุ่มหรือคลัสเตอร์ เรารับแอตทริบิวต์ตัวแทนของคลัสเตอร์ ชุดสุดท้ายของแอตทริบิวต์พนักงานทั้งหมดที่ถือจับลักษณะสำคัญของชุดข้อมูล ใช้วิธีคล้ายกันในอ้างอิง [28]
เราจ้าง k medoid ระบบคลัสเตอร์อัลกอริทึมในขั้นตอนระบบคลัสเตอร์การเลือกแอททริบิวต์ (รายละเอียดเพิ่มเติมเกี่ยวกับคลัสเตอร์อัลกอริทึมในการรวมคลัสเตอร์ medoid k ดูอ้างอิง [16]) เหตุผลที่เราเบิก k medoid คลัสเตอร์ได้เนื่องจากจะมีแนวโน้มกลับกลุ่มทรงกลม และให้ medoid (มัธยฐานกรณีขนาดสูง) สำหรับแต่ละกลุ่ม ใช้ medoids เหล่านี้ เราสามารถเลือกแอททริบิวต์พนักงาน
ชุดข้อมูลในโปรแกรมประยุกต์นี้ เราพบคลัสเตอร์สามที่แสดงในรูปเงาดำลง [23] ใน Fig. 1
รูปภาพขนาดเต็ม (28 K)
Fig. 1
ผลของ k-medoid คลัสเตอร์
ตัวเลือกรูป
ในชุดข้อมูลในโปรแกรมประยุกต์นี้ เราใช้ของอัลกอริทึมที่พบ medoids สามต่อไปนี้: HUNT_DST (อยู่อาศัยความหนาแน่นหน่วย) ENRL3_DST (โรงเรียนลงทะเบียนความหนาแน่น), และ TRAN_PC (ค่าใช้จ่ายในการเดินทาง: ต่อ capita) เราได้ปรับปรุงบางอย่าง เราแทน ENRL3_DST ด้วยแอตทริบิวต์อื่น POP3_DST (ความหนาแน่นประชากร: อายุ 12 – 17) เหตุผลว่า POP3_DST มีความคล้ายคลึงกับ ENRL3_DST (มีสัมประสิทธิ์สหสัมพันธ์ > 90%) และมีความหมายมากในอาชญาวิทยา คนในช่วงอายุนี้มีแนวโน้มที่จะถูกโจมตีและผู้ประสบภัย เหตุผลคล้ายกัน เราเปลี่ยน TRAN_PC กับ MHINC (มัธยฐานรายได้ในครัวเรือน)
มีทั้งหมดเก้าแอตทริบิวต์ที่ใช้ในการวิเคราะห์ของเรา: 6 MO คุณลักษณะ (แตก) และแอททริบิวต์เลขที่สามที่รับ โดยใช้ขั้นตอนการเลือกแอททริบิวต์ เนื่องจากวิธีการของเราได้รับการพัฒนาบนแอตทริบิวต์แน่ชัด เราแปลงแอตทริบิวต์เป็นตัวเลขแน่ชัดโดยให้แบ่งช่อง 11 ขนาดเท่ากัน หมายเลขถูกกำหนด โดยจำนวนของ Sturge ของช่องกฎ [32] และ [33]
4.2 เกณฑ์การประเมิน
เราพิจารณาข้อมูลในฐานข้อมูลสงสัยเป็น "ผลจริง" มีจำนวนเหตุการณ์ที่ 170 มีระบุ