made for embedded objects within web pages, requests made
by automated software agents [25], unsuccessful requests of
users, requests with access methods other than GET etc.
The web server log entries are grouped into user sessions,
where session refers to the unit of interaction between a
web user and a web server. The Web user sessions are identified
using broadly accepted and practically implemented
timeout based session identification method [26] as shown
in Algorithm 1 which builds on the methods discussed in [27]
and [28].
Definition 1 (Cleaning): Given a web server log file:
L of n records where L ← {r1,r2. . .rn},where n ≫ 1. Let
L
c ← {r1,r2. . .rn} and ∀ 3 ri (ri
.url 6=(*.gif |*.jpeg |*.jpg
|*.png |*.tif |*.bmp) and (ri
.method = ‘‘GET’’ |‘‘POST’’)
and (ri
.status) ≥ 200 && (ri
.status)< 300) and (ri
.agent) 6=
(*. crawler.* |*.spider.* |*.bot.*) or (ri
.referrer) = ‘‘−’’)) then
L
c ← {r1,r2. . .rn} is a cleaned web log file.
B. VECTOR SPACE REPRESENTATION OF USER SESSIONS
Suppose, for a given website; there are m number of
user sessions extracted from the web server logs Si =
{S1, S2,. . . .Sm}, which Access n number of different URL’s
(pages) Pi = {P1, P2,. . . .Pn} in a given website in a some
specific time interval. The number of visits to the page or
frequency of page and time spent on the page or duration
of page these are the implicit measures and computed from
weblog data to find interest of web users’ for any page
สำหรับวัตถุฝังตัวในหน้าเว็บ ร้องโดยอัตโนมัติซอฟต์แวร์ตัวแทน [25], คำร้องขอสำเร็จการผู้ใช้ ร้อง ด้วยวิธีการอื่นนอกเหนือจากรับฯลฯรายการล็อกเซิร์ฟเวอร์เว็บการจัดกลุ่มเป็นเซสชันของผู้ใช้ที่เซสชันอ้างถึงปฏิสัมพันธ์ระหว่างหน่วยการผู้ใช้เว็บและเว็บเซิร์ฟเวอร์ ระบุรอบเวลาผู้ใช้เว็บใช้ที่ยอมรับ และนำมาใช้จริงวิธีรหัสเซสชันหมดเวลาตาม [26] ดังแสดงในอัลกอริทึมที่ 1 จากวิธีอธิบายไว้ใน [27]และ [28]นิยามที่ 1 (ซัก): กำหนดให้เว็บเซิร์ฟเวอร์แฟ้มบันทึก:L n เรกคอร์ด L ← { r1, r2 โธ่ n }, ที่ n ≫ 1 ปล่อยให้Lc ← { r1, r2 โธ่ n } และ∀ 3 ri (ri.url 6 = (*.gif | *.jpeg | *.jpg| *.png | *.tif | * .bmp) และ (ri.method = ''รับ '' |'' โพสต์ '')และ (ri.status) ≥ 200 & & (ri.status) < 300) และ (ri.agent) 6 =(* . crawler.* | * . spider.* | * . bot.*) หรือ (ri.referrer) = ''−'')) แล้วLc ← { r1, r2 โธ่ n } เป็นล็อกไฟล์เว็บทำความสะอาดข.เวกเตอร์แสดงของเซสชันผู้ใช้สมมติว่า สำหรับเว็บไซต์ที่กำหนด มีจำนวนมเซสชันของผู้ใช้จากเซิร์ฟเวอร์เว็บล็อกศรี ={ S1, S2, .... Sm }, ซึ่งเข้าถึง URL แตกต่างกัน n จำนวน(หน้า) Pi = { P1, P2, .... Pn } ในเว็บไซต์ที่กำหนดในแบบช่วงเวลาเฉพาะ จำนวนเข้าชมไปยังหน้า หรือความถี่ของหน้าและเวลาที่ใช้ในหน้าหรือระยะเวลาของหน้า เหล่านี้เป็นมาตรการโดยนัย และคำนวณจากบล็อกข้อมูลเพื่อหาผลประโยชน์ของผู้ใช้เว็บทุกหน้า
การแปล กรุณารอสักครู่..

ทำสำหรับวัตถุที่ฝังอยู่ภายในหน้าเว็บคำขอทำ
โดยตัวแทนซอฟต์แวร์อัตโนมัติ [25] ร้องขอไม่ประสบความสำเร็จของ
ผู้ใช้ด้วยวิธีการร้องขอการเข้าถึงอื่น ๆ กว่า GET ฯลฯ
รายการเข้าสู่ระบบเว็บเซิร์ฟเวอร์ถูกแบ่งออกเป็นช่วงการใช้งาน
ที่เซสชั่นหมายถึงหน่วยของ ปฏิสัมพันธ์ระหว่าง
ผู้ใช้เว็บและเว็บเซิร์ฟเวอร์ การประชุมของผู้ใช้เว็บจะมีการระบุ
การใช้ในวงกว้างได้รับการยอมรับและนำไปปฏิบัติจริง
หมดเวลาวิธีการระบุตามเซสชั่น [26] ดังแสดง
ในขั้นตอนวิธีการ 1 ซึ่งสร้างในวิธีการที่กล่าวถึงใน [27]
และ [28]
ความหมายที่ 1 (ทำความสะอาด): ให้แฟ้มบันทึกเว็บเซิร์ฟเวอร์:
L ของระเบียน n โดยที่ L ← {R1, R2 . .rn} ที่ n » 1. Let
L
C ← {R1, R2 . .rn} และ∀ 3 ri (RI
.url 6 = (* GIF. | * .jpeg | * .jpg
| * .png | * .TIF | * .bmp) และ (RI
.method = '' ได้รับ '' | '' โพสต์ '')
และ (RI
.status) ≥ 200 && (RI
.status) <300) และ (RI
.agent) 6 =
(* ตีนตะขาบ * |.. * * * * * * * * .spider |.. * * * * * * * * .bot) หรือ (RI
.referrer) = '' - '')) แล้ว
L
C ← {R1, R2 . .rn} เป็นไฟล์เข้าสู่ระบบเว็บทำความสะอาด
บี VECTOR SPACE ตัวแทนของเซสชันของผู้ใช้
สมมติว่าสำหรับเว็บไซต์ที่กำหนด; มีจำนวน m ของ
เซสชันของผู้ใช้สกัดจากบันทึกการใช้เว็บเซิร์ฟเวอร์ศรี =
{S1, S2 ,. . . .Sm} ซึ่งเข้าจำนวน n URL ที่แตกต่างกัน
(หน้า) Pi = {P1, P2 ,. . . .Pn} ในเว็บไซต์ที่กำหนดในบาง
ช่วงเวลาที่เฉพาะเจาะจง จำนวนการเข้าชมหน้าเว็บหรือที่
ความถี่ของหน้าและเวลาที่ใช้ในหน้าหรือช่วงเวลาหนึ่ง
ของหน้าเหล่านี้เป็นมาตรการนัยและคำนวณจาก
ข้อมูลเว็บบล็อกเพื่อหาสิ่งที่น่าสนใจของผู้ใช้เว็บสำหรับหน้าเว็บใด ๆ
การแปล กรุณารอสักครู่..

ทำให้วัตถุฝังตัวภายในหน้าเว็บ , การร้องขอโดยอัตโนมัติซอฟต์แวร์ตัวแทน [ 25 ] ขอความของผู้ใช้ร้องขอ ด้วยการเข้าถึงวิธีอื่นมากกว่าที่ได้รับ ฯลฯเว็บเซิร์ฟเวอร์เข้าสู่ระบบป้อนข้อมูลจะถูกจัดกลุ่มในเซสชันของผู้ใช้ที่เซสชั่น หมายถึง หน่วยของการปฏิสัมพันธ์ระหว่างผู้ใช้เว็บ และ เว็บ เซิร์ฟเวอร์ เว็บเซสชันของผู้ใช้ระบุการใช้และการยอมรับอย่างกว้างขวางในทางปฏิบัติหมดเวลาการใช้ Session [ 26 ] เป็นวิธีในขั้นตอนวิธีที่ 1 ซึ่งสร้างในวิธีการที่กล่าวถึงใน [ 27 ]และ [ 28 ]นิยามที่ 1 ( ซักแห้ง ) : ให้ล็อกไฟล์บนเซิร์ฟเวอร์ :ผมของบันทึกที่ผม← { R1 , R2 . . . . . . . . RN } , N ≫ 1 ให้lC ← { R1 , R2 . Rn } . . . และ∀ 3 ( ริริ6 . url = ( * . gif | * . jpeg jpg | * .| * . png | * . TIF | * . bmp ( ริ ) และวิธี = ' 'get | ''post ' ' ) ' '( รีสถานะ ) ≥ 200 & ( ริสถานะ ) < 300 ) และ ( ริตัวแทน ) 6 =( * . ไม้เลื้อย * | * . | แมงมุม * * บอท * ) หรือ ( ริ. ลด ) = ' ' − ' ' ) ) แล้วlC ← { R1 , R2 . . . . . . . . RN } เป็นทำความสะอาดเว็บเข้าสู่ระบบแฟ้มเวกเตอร์พื้นที่เป็นตัวแทนของเซสชันของผู้ใช้ Bสมมติให้มีหมายเลขสองของเว็บไซต์เซสชันของผู้ใช้ที่สกัดจากเว็บเซอร์เวอร์ ซิ ={ S1 , S2 , . . . . . . . . . SM } ซึ่งการเข้าถึงจำนวนของ URL ที่แตกต่างกันของ( หน้า ) Pi = { P1 , P2 , . . . . . . . . . PN } ที่ระบุในเว็บไซต์ในบางส่วนช่วงเวลาที่เฉพาะเจาะจง จำนวนการเข้าชมหน้านี้หรือความถี่ของหน้าและเวลาที่ใช้ในหน้าหรือระยะเวลาในหน้าเหล่านี้เป็นมาตรการที่แนบเนียนและคำนวณจากข้อมูลเว็บหาผลประโยชน์ของผู้ใช้เว็บในหน้าใด ๆ
การแปล กรุณารอสักครู่..
