17.4.1 Poisson Regression Model
A collection of models frequently used in the field of statistics are the generalized
linear models (GLM) [32, 35]. To model a dependent count variable being discrete
and nonnegative, such as sales in our domain, we use an appropriate member of
the GLM family, that is, the Poisson regression model. In Poisson regression, we
cannot use (multi-valued) categorical attributes directly, so we have to create dummy
attributes instead. Therefore, every categorical attribute is represented by Lk −1
dummies xikℓ, which are 1 for the category where the item belongs to and 0 for
all other attributes, where Lk is the number of different categories for attribute k.
When an item belongs to the last category Lk all dummies for this attribute will be 0.
This representation is chosen to avoid multicollinearity. For multi-valued categorical
attributes the same approach is used, only now all categories are represented by,
in total, Lk dummies. For numerical attributes, we can just use the attribute itself.
Hence, xik = xik1 and Lk = 1. We collect all xikℓ for item i in vector xi. Also, an
intercept term xi0 is incorporated in this vector, which equals 1 for all items. Hence,
xi = (xi0,xi11, . . . ,xiKLK Furthermore, we have the dependent count variable value yi
for all I items. Now, we can express the Poisson regression model as
17.4.1 การถดถอยปัวซองรุ่น
คอลเลกชันของรูปแบบที่ใช้บ่อยในสาขาสถิติทั่วไป
ตัวแบบเชิงเส้น (GLM) [32, 35] รูปแบบขึ้นอยู่กับตัวแปรนับเป็นที่ไม่ต่อเนื่อง
และไม่เป็นลบเช่นการขายในโดเมนของเราเราจะใช้ที่เหมาะสมของสมาชิก
ในครอบครัว GLM, ที่อยู่, รูปแบบการถดถอยปัวซอง ในการถดถอยปัวซองเรา
ไม่สามารถใช้ (หลายค่า) คุณลักษณะเด็ดขาดโดยตรงดังนั้นเราต้องสร้างหุ่น
คุณลักษณะแทน ดังนั้นทุกแอตทริบิวต์เด็ดขาดเป็นตัวแทนจากแอล -1
หุ่นxikℓซึ่งเป็น 1 ประเภทรายการที่เป็นของคนและ 0 สำหรับ
คุณลักษณะอื่น ๆ ที่แอลคือจำนวนของประเภทที่แตกต่างกันสำหรับแอตทริบิวต์ k.
เมื่อรายการเป็น ประเภทสุดท้ายลกหุ่นทั้งหมดสำหรับคุณลักษณะนี้จะเป็น 0
การแสดงนี้จะเลือกที่จะหลีกเลี่ยงการพหุ สำหรับหลายค่าเด็ดขาด
คุณลักษณะวิธีการเดียวกันจะใช้เฉพาะตอนนี้ทุกประเภทเป็นตัวแทนโดย
รวมหุ่นลก สำหรับแอตทริบิวต์ตัวเลขเราก็สามารถใช้แอตทริบิวต์ตัวเอง.
ดังนั้น xik = xik1 และแอล = 1 เราเก็บรวบรวมxikℓทั้งหมดสำหรับรายการฉันเวกเตอร์ในซีอาน นอกจากนี้
xi0 ระยะตัดเป็นนิติบุคคลที่จัดตั้งในเวกเตอร์นี้ซึ่งเท่ากับ 1 สำหรับรายการทั้งหมด ดังนั้น
จิน = (xi0, xi11,..., xiKLK นอกจากนี้ยังมีการนับยี่ขึ้นอยู่กับค่าตัวแปร
สำหรับรายการทั้งหมดที่ฉัน. ตอนนี้เราสามารถแสดงรูปแบบการถดถอยปัวซองเป็น
การแปล กรุณารอสักครู่..
