The past decade has seen the immense rise of the peer- to-peer (P2P) computing paradigm. In the beginning of the twenty-first century, the P2P architecture attracted a lot of attention of developers and end-users alike, with the share of P2P over the Internet in different continents being reported to be in the range of 45% to 70% [1]. As an increasing number of users got access to powerful pro- cessors, large storage spaces, and increasing bandwidths, P2P networks presented a great opportunity to share and mobilize resources.
Peer-to-peer overlay networks are distributed systems consisting of interconnected nodes which self-organize into network topologies. They are built with specific pur- poses of sharing resources such as content, CPU storage, and bandwidth. P2P networks have the ability to accommodate a transient population of nodes while main- taining acceptable connectivity and performance. They also operate without requiring the intermediation or sup- port of a global centralized server or authority [2]. The construction of P2P networks is on the top of IP layer, typically with a decentralized protocol allowing ‘peers’ to share resources. The immense success of P2P applications is primarily attributed to the ease of resource sharing pro- vided by them - be it in the form of music, videos, files (BitTorrent), or sharing of computing resources (SETI @ home project). Apart from these, P2P paradigm has also been widely deployed for IPTV (LiveStation) and voice over IP-based services (Skypea ).
However, the P2P paradigm has been plagued with issues of privacy, security, and piracy to name a few [3-5]. Such issues, coupled with the advent of other pop- ular content-sharing platforms (like YouTube and Netflix)
have led to decline in the share of P2P applications over the Internet to a mere 10% [6].
As P2P networks are inherently modeled without any centralized server, they lack a single point of failure [7]. This resilience offered by P2P networks has also attracted the attention of adversaries in the form of bot-masters (a.k.a. bot-herders). A ‘bot’ is a computer program which enables the operator to remotely control the infected sys- tem where it is installed. A network of such compromised end-hosts under the remote command of a master (i.e., the bot-master) is called a ‘Botnet’. The ability to remotely command such bots coupled with the sheer size of bot- nets (numbering to tens of thousands of bots) gives the bot-masters immense power to perform nefarious activi- ties. Botnets are employed for spamming, Bitcoin mining, click-fraud scams, distributed denial of service (DDoS) attacks, etc. on a massive scale, and generate millions of dollars per year in revenue for the bot-master [8]. Bot- nets are being touted as the largest threat to modern networks [9].
Botnets can either adopt a centralized or a distributed architecture for their command-and-control (C&C) com- munications. Earlier botnets were known to be centralized (e.g., Spybot, R-bot, Gaobot, etc.), and commonly used IRC or HTTP to receive commands from a single bot- master. But they suffer from a single point-of-failure since bringing down the bot-master effectively brought down the entire botnet. The distributed and decentralized P2P infrastructure has offered a lucrative alternative to bot- masters to build botnets which are not prone to any single point-of-failure. They have also proven to be highly resilient against takedown attempts [10].
Detection of P2P botnets by analysis of their network behavior has frequently utilized ‘flow-based’ approaches. Owing to certain limitations of these approaches in identi- fying modern P2P applications (discussed in Section 2.2), alternatives have been proposed in the form of super- flow-based and conversation-based approaches. However, these approaches are not yet mature and suffer from several drawbacks.
To this end, we present PeerShark, witha ‘best of both worlds’ approach utilizing flow-based approaches as well as conversation-based approaches in a two-tier architec- ture. PeerShark can differentiate between benign P2P traffic and malicious (botnet) P2P traffic, and also detect unknown P2P botnets with high accuracy. We envision PeerShark as a ‘P2P-aware’ assistant to network admin- istrators wanting to segregate unwanted P2P traffic and detect P2P botnets.
PeerShark does not assume the availability of any
‘seed’ information of bots through blacklist of IPs. It does not rely on deep packet inspection (DPI) or signature- based mechanisms which are rendered useless by bot- nets/applications using encryption. It aims to detect thestealthy behavior of P2P botnets, that is, when they lie dor- mant in their rally or waiting stages (to evade intrusion detection systems which look for anomalous communica- tion patterns) or while they perform malicious activities (spamming, password stealing, etc.) in a manner which is not observable to a network administrator.
PeerShark begins with the de facto standard 5-tuple flow-based approach and clusters flows into different cat- egories based on their behavior. Within each cluster, we create 2-tuple ‘conversations’ from flows. Conversations are oblivious to the underlying flow definition (i.e., they are port- and protocol-oblivious) and essentially capture the idea of who is talking to whom. For all conversa- tions, statistical features are extracted which quantify the inherent ‘P2P’ behavior of different applications, such as the duration of the conversation, the inter-arrival time of packets, the amount of data exchanged, etc. Further, these features are used to build supervised machine learning models which can accurately differentiate between benign P2P applications and P2P botnets.
In the next section, we give a brief background of P2P botnets (Section 2.1) and discuss past efforts on P2P bot- net detection (Section 2.2). In Section 3, we discuss the system design of PeerShark. Section 4 gives the details of design choices and implementation of PeerShark, followed by its evaluation in Section 5. In Section 6, we discuss about the limitations and possible evasions of PeerShark, and briefly mention about multi-class classification. We conclude in Section 7.
ทศวรรษที่ผ่านมาได้เห็นการเพิ่มขึ้นอันยิ่งใหญ่ของ ในการเริ่มต้นของศตวรรษที่ยี่สิบเอ็ดสถาปัตยกรรม ในฐานะที่เป็นจำนวนที่เพิ่มขึ้นของผู้ใช้มีการเข้าถึง The past decade has seen the immense rise of the peer- to-peer (P2P) computing paradigm. In the beginning of the twenty-first century, the P2P architecture attracted a lot of attention of developers and end-users alike, with the share of P2P over the Internet in different continents being reported to be in the range of 45% to 70% [1]. As an increasing number of users got access to powerful pro- cessors, large storage spaces, and increasing bandwidths, P2P networks presented a great opportunity to share and mobilize resources.
เพียร์Peer- -ไปto- -เพียร์เครือข่ายซ้อนทับมีการกระจายระบบประกอบด้วยโหนดที่เชื่อมต่อกันที่ตัวเองpeer overlay networks are distributed systems consisting of interconnected nodes which self- -จัดระเบียบเข้าไปในโครงสร้างเครือข่าย พวกเขาจะสร้างขึ้นด้วย organize into network topologies. They are built with specific pur- - โพสท่าของทรัพยากรที่ใช้ร่วมกันเช่นเนื้อหาการจัดเก็บข้อมูลของ เครือข่าย poses of sharing resources such as content, CPU storage, and bandwidth. P2P networks have the ability to accommodate a transient population of nodes while main- - ในประเด็นการเชื่อมต่อที่ได้รับการยอมรับและประสิทธิภาพการทำงาน พวกเขายังทำงานโดยไม่ต้องมีตัวกลางหรือจีบtaining acceptable connectivity and performance. They also operate without requiring the intermediation or sup- - พอร์ตของเซิร์ฟเวอร์ส่วนกลางหรือผู้มีอำนาจระดับโลก การสร้างเครือข่าย port of a global centralized server or authority [2]. The construction of P2P networks is on the top of IP layer, typically with a decentralized protocol allowing ' ที่จะใช้ทรัพยากรร่วมกัน ความสำเร็จอันยิ่งใหญ่ของโปรแกรม - แต่แบ่งโดยพวกเขา- ไม่ว่าจะเป็นในรูปแบบของเพลงวิดีโอไฟล์ ‘peers’ to share resources. The immense success of P2P applications is primarily attributed to the ease of resource sharing pro- vided by them - be it in the form of music, videos, files (BitTorrent), or sharing of computing resources (SETI @ home project). Apart from these, P2P paradigm has also been widely deployed for IPTV (LiveStation) and voice over IP-based services (Skypea ).
However, the P2P paradigm has been plagued with issues of privacy, security, and piracy to name a few [3-5]. Such issues, coupled with the advent of other pop- ular content-sharing platforms (like YouTube and Netflix)
have led to decline in the share of P2P applications over the Internet to a mere 10% [6].
As P2P networks are inherently modeled without any centralized server, they lack a single point of failure [7]. This resilience offered by P2P networks has also attracted the attention of adversaries in the form of bot-masters (a.k.a. bot-herders). A ‘bot’ is a computer program which enables the operator to remotely control the infected sys- tem where it is installed. A network of such compromised end-hosts under the remote command of a master (i.e., the bot-master) is called a ‘Botnet’. The ability to remotely command such bots coupled with the sheer size of bot- nets (numbering to tens of thousands of bots) gives the bot-masters immense power to perform nefarious activi- ties. Botnets are employed for spamming, Bitcoin mining, click-fraud scams, distributed denial of service (DDoS) attacks, etc. on a massive scale, and generate millions of dollars per year in revenue for the bot-master [8]. Bot- nets are being touted as the largest threat to modern networks [9].
Botnets can either adopt a centralized or a distributed architecture for their command-and-control (C&C) com- munications. Earlier botnets were known to be centralized (e.g., Spybot, R-bot, Gaobot, etc.), and commonly used IRC or HTTP to receive commands from a single bot- master. But they suffer from a single point-of-failure since bringing down the bot-master effectively brought down the entire botnet. The distributed and decentralized P2P infrastructure has offered a lucrative alternative to bot- masters to build botnets which are not prone to any single point-of-failure. They have also proven to be highly resilient against takedown attempts [10].
Detection of P2P botnets by analysis of their network behavior has frequently utilized ‘flow-based’ approaches. Owing to certain limitations of these approaches in identi- fying modern P2P applications (discussed in Section 2.2), alternatives have been proposed in the form of super- flow-based and conversation-based approaches. However, these approaches are not yet mature and suffer from several drawbacks.
To this end, we present PeerShark, witha ‘best of both worlds’ approach utilizing flow-based approaches as well as conversation-based approaches in a two-tier architec- ture. PeerShark can differentiate between benign P2P traffic and malicious (botnet) P2P traffic, and also detect unknown P2P botnets with high accuracy. We envision PeerShark as a ‘P2P-aware’ assistant to network admin- istrators wanting to segregate unwanted P2P traffic and detect P2P botnets.
PeerShark does not assume the availability of any
‘seed’ information of bots through blacklist of IPs. It does not rely on deep packet inspection (DPI) or signature- based mechanisms which are rendered useless by bot- nets/applications using encryption. It aims to detect thestealthy behavior of P2P botnets, that is, when they lie dor- mant in their rally or waiting stages (to evade intrusion detection systems which look for anomalous communica- tion patterns) or while they perform malicious activities (spamming, password stealing, etc.) in a manner which is not observable to a network administrator.
PeerShark begins with the de facto standard 5-tuple flow-based approach and clusters flows into different cat- egories based on their behavior. Within each cluster, we create 2-tuple ‘conversations’ from flows. Conversations are oblivious to the underlying flow definition (i.e., they are port- and protocol-oblivious) and essentially capture the idea of who is talking to whom. For all conversa- tions, statistical features are extracted which quantify the inherent ‘P2P’ behavior of different applications, such as the duration of the conversation, the inter-arrival time of packets, the amount of data exchanged, etc. Further, these features are used to build supervised machine learning models which can accurately differentiate between benign P2P applications and P2P botnets.
In the next section, we give a brief background of P2P botnets (Section 2.1) and discuss past efforts on P2P bot- net detection (Section 2.2). In Section 3, we discuss the system design of PeerShark. Section 4 gives the details of design choices and implementation of PeerShark, followed by its evaluation in Section 5. In Section 6, we discuss about the limitations and possible evasions of PeerShark, and briefly mention about multi-class classification. We conclude in Section 7.
การแปล กรุณารอสักครู่..

ทศวรรษที่ผ่านมาได้เห็นการเพิ่มขึ้นอย่างมหาศาลของ เพื่อนเพื่อเพื่อน ( P2P ) กระบวนทัศน์การคำนวณ ในตอนต้นของศตวรรษที่ยี่สิบ , P2P สถาปัตยกรรมที่ดึงดูดมากของความสนใจของนักพัฒนาและผู้ใช้เหมือนกันกับหุ้นของธนาคารผ่านทางอินเทอร์เน็ตในทวีปต่าง ๆ การรายงานจะอยู่ในช่วงร้อยละ 45 ถึง 70 % [ 1 ]เป็นจำนวนเพิ่มมากขึ้นของผู้ใช้มีการเข้าถึงที่มีประสิทธิภาพโปร - cessors พื้นที่จัดเก็บขนาดใหญ่และเพิ่มอุปกรณ์เครือข่าย P2P , เสนอโอกาสที่ดีในการแลกเปลี่ยน และระดมทรัพยากร
เพื่อนเพื่อเพื่อนเครือข่ายซ้อนทับเป็นระบบกระจายประกอบด้วยเชื่อมโยงโหนดซึ่งตนเองการจัดระเบียบในรูปแบบเครือข่ายพวกเขาจะสร้างขึ้นเฉพาะ Pur - อากัปกิริยาของการแชร์ทรัพยากร เช่นเนื้อหา , กระเป๋า , CPU และแบนด์วิธ เครือข่าย P2P มีความสามารถที่จะรองรับประชากรชั่วคราวของโหนดในขณะที่หลัก - สีย้อมยอมรับการเชื่อมต่อและประสิทธิภาพ พวกเขายังใช้งานโดยไม่ต้องมีตัวกลาง หรือ sup - พอร์ตของโลกเซิร์ฟเวอร์ส่วนกลางหรือส่วนภูมิภาค [ 2 ]การก่อสร้างของเครือข่าย P2P อยู่ด้านบนของชั้น IP , โปรโตคอลโดยทั่วไปกับแบบกระจายอำนาจให้ ' เพื่อน ' เพื่อแบ่งปันทรัพยากร ความสำเร็จอันยิ่งใหญ่ของโปรแกรม P2P เป็นหลักประกอบกับความสะดวกในการใช้ทรัพยากรร่วมกันโปร - vided โดยพวกเขาจะเป็นในรูปแบบของเพลง , วิดีโอ , ไฟล์ ( BitTorrent ) หรือการแบ่งปันทรัพยากรคอมพิวเตอร์ ( โครงการบ้าน SETI @ ) นอกจากสิ่งเหล่านี้กระบวนทัศน์ P2P ยังถูกใช้งานอย่างกว้างขวางสำหรับ IPTV ( livestation ) และ Voice over IP ที่ใช้บริการ ( skypea ) .
แต่ P2P กระบวนทัศน์ได้รับการ plagued กับปัญหาความเป็นส่วนตัว , การรักษาความปลอดภัยและการละเมิดลิขสิทธิ์เพื่อชื่อไม่กี่ [ 3-5 ] ปัญหาดังกล่าว ประกอบกับการเข้ามาของป๊อปเนื้อหาอื่น ๆ ular แบ่งปันแพลตฟอร์ม ( เช่น YouTube และ Netflix )
ทำให้ลดลงในหุ้นของโปรแกรม P2P ผ่านอินเทอร์เน็ตเพียง 10 % [ 6 ] .
เป็นเครือข่าย P2P เป็นอย่างโดยเนื้อแท้แบบไม่มีข้อมูลเซิร์ฟเวอร์ พวกเขาขาดจุดเดียวล้มเหลว [ 7 ] นี้ และที่เสนอ โดยเครือข่าย P2P ยังดึงดูดความสนใจของศัตรูในรูปแบบของแนวโน้มนี้ ( aka หุ่นคนเลี้ยง )' ธปท. ' เป็นโปรแกรมที่ช่วยให้ผู้ประกอบการสามารถควบคุมระยะไกลใน sys - ติดเชื้อแบบที่มันมีการติดตั้ง เครือข่าย เช่น ละเมิด จบโยธาภายใต้คำสั่งจากระยะไกลเป็นหลัก ( เช่น อาจารย์ ธปท. ) เรียกว่า ' แก้ไข 'ความสามารถในการจากระยะไกล เช่น สั่งบอทคู่กับขนาดที่แท้จริงของ ธปท. - มุ้ง ( เลขที่จะนับหมื่นของบอท ) ให้นายบอทพลังงานเวิ้งว้างเพื่อดำเนินการชั่วร้าย ฯลฯ - ความสัมพันธ์ รูปแบบที่ใช้สำหรับการส่งสแปม bitcoin เหมืองแร่คลิกการหลอกลวงฉ้อโกง การกระจายการปฏิเสธการให้บริการ ( DDoS ) โจมตี ฯลฯ บนมาตราส่วนขนาดใหญ่และสร้างล้านดอลลาร์ต่อปีในรายได้ให้กับหุ่นต้นแบบ [ 8 ] ธปท. - มุ้งจะถูก touted เป็นภัยคุกคามที่ใหญ่ที่สุดเพื่อที่ทันสมัยเครือข่าย [ 9 ] .
เองสามารถใช้ส่วนกลาง หรือสถาปัตยกรรมแบบกระจายสำหรับการสั่งการและควบคุม ( C & C ) com - munications . ก่อนหน้านี้ สหรัฐได้เรียกว่าเป็นส่วนกลาง เช่น spybot r-bot gaobot , , , ฯลฯ )ที่ใช้กันทั่วไปใน IRC หรือ HTTP เพื่อรับคำสั่งจากเดียวบอท - อาจารย์ แต่พวกเขาประสบจากจุดของความล้มเหลวตั้งแต่นำลงต้นแบบหุ่นได้อย่างมีประสิทธิภาพนำลงมาบ็อตเน็ตทั้งหมด การกระจายและโครงสร้างพื้นฐานที่ได้เสนอทางเลือกกระจายอำนาจ P2P lucrative บอท - นายสร้างเองซึ่งจะไม่เสี่ยงใด ๆจุดเดียวล้มเหลวพวกเขาได้พิสูจน์แล้วจะขอยืดหยุ่นต่อต้านความพยายามจับกุม [ 10 ] .
ตรวจสอบ P2P เองโดยการวิเคราะห์พฤติกรรมของเครือข่ายของพวกเขาได้ใช้ ' กระแส ' บ่อยตามแนว เนื่องจากข้อจำกัดบางประการของวิธีการเหล่านี้ใน identi - fying โปรแกรม P2P สมัยใหม่ ( ที่กล่าวถึงในมาตรา 2.2 )ทางเลือกที่ได้รับการเสนอในรูปแบบของการสนทนาจากตามซุปเปอร์และวิธี อย่างไรก็ตาม วิธีการเหล่านี้ยังโตไม่เต็มที่และยังประสบจากหลายประการ .
สิ้นสุดนี้ เราเสนอ peershark อะดีที่สุดของทั้งสอง worlds , ' ' วิธีการไหลตามแนวรวมทั้งการสนทนาจากแนวทางในสองชั้น engineer - ture .peershark สามารถแยกความแตกต่างระหว่างการจราจร P2P ใจดีและเป็นอันตราย ( botnet ) การจราจร P2P , P2P และยังตรวจสอบ botnets จักมีความถูกต้องสูง เราวาดภาพ peershark เป็น ' ' ผู้ช่วยผู้ดูแลระบบทราบ P2P เครือข่าย istrators อยากจะแยกการจราจร P2P P2P ที่ไม่พึงประสงค์และตรวจสอบ botnets .
peershark ไม่ถือว่าความพร้อมใด ๆ
'seed ' ข้อมูลบอทผ่านบัญชีดำของ IPSมันไม่ต้องอาศัยการตรวจสอบแพ็คเก็ตลึก ( DPI ) หรือลายเซ็นต์ตามกลไกซึ่งจะแสดงไร้ประโยชน์ โดย ธปท. - มุ้ง / โปรแกรมโดยใช้การเข้ารหัส มันมีวัตถุประสงค์เพื่อตรวจสอบพฤติกรรม thestealthy ของ botnets , P2P คือเมื่อพวกเขาโกหก ดอร์ - mant ในชุมนุมหรือรอขั้นตอน ( เพื่อหลบเลี่ยงระบบตรวจจับการบุกรุก ซึ่งดูว่ารูปแบบการสื่อสาร - tion ) หรือในขณะที่พวกเขาทำกิจกรรมที่เป็นอันตราย ( สแปม , ขโมยรหัสผ่าน ฯลฯ ) ในลักษณะที่ไม่สังเกตจะเป็นผู้ดูแลระบบเครือข่าย .
peershark เริ่มต้นด้วยมาตรฐาน de facto 5-tuple ไหลตามวิธีการและกลุ่มไหลในแมว - egories แตกต่างกันขึ้นอยู่กับพฤติกรรมของพวกเขา ภายในแต่ละกลุ่ม เราสร้าง 2-tuple ' สนทนา ' จากไหล การสนทนาจะลืมพื้นฐานความหมาย ( เช่น การจะพอร์ตและโปรโตคอลลบเลือน ) และเป็นหลักยึดความคิดของคนที่กำลังพูดกับใครทั้งหมด conversa - ยินดีด้วย คุณสมบัติทางสถิติซึ่งสกัดปริมาณที่แท้จริง ' P2P พฤติกรรมการใช้งานที่แตกต่างกัน เช่น ระยะเวลาของการสนทนา ระหว่างมาถึงเวลาของแพ็กเก็ต , ปริมาณของข้อมูลที่แลกเปลี่ยน ฯลฯ เพิ่มเติมคุณสมบัติเหล่านี้จะใช้ในการสร้าง ดูแลเครื่องจักรที่ถูกต้องสามารถแยกความแตกต่างระหว่างการเรียนรู้แบบอ่อนโยนและการใช้งาน P2P P2P botnets .
ในส่วนถัดไป , เราให้พื้นหลังสั้น ๆของ P2P เอง ( ส่วน 2.1 ) และหารือเกี่ยวกับความพยายามที่ผ่านมา ธปท. - P2P สุทธิตรวจสอบ ( มาตรา 2 ) ในส่วนที่ 3 เราได้กล่าวถึงการออกแบบระบบ peershark .มาตรา 4 ให้รายละเอียดของตัวเลือกการออกแบบและการดำเนินงานของ peershark ตาม โดยประเมินในส่วนที่ 5 . ในมาตรา 6 ที่เราจะหารือเกี่ยวกับข้อดีและ evasions เป็นไปได้ของ peershark และสั้น ๆกล่าวถึงการจำแนกระดับหลาย เราสรุปได้ในหมวดที่ 7 .
การแปล กรุณารอสักครู่..
