Log-Linear Regression Model for Pneumonia Incidence of Children
Aged under Five Years in Surat Thani, Thailand 1999-2007
1. INTRODUCTION
Pneumonia is estimated to be the leading cause of mortality in the world among children
less than 5 years of age, with more than 95 % of all clinically-diagnosed episodes occurring
in developing countries [1]. It is caused by viruses, bacteria or other infective agents entering
the respiratory tract. Although originally regarded as an infectious disease, pneumonia is now
classified by ICD10 as a disease of the respiratory system. Respiratory tract infections are
not only more prevalent but more severe, accounting for more than 4 million deaths annually.
Pneumonia is the number one killer of children in developing societies [2].
KONGCHOUY N ET AL.
1.1. Disease etiology and severity in Thailand
In Thailand, all hospital-diagnosed infectious disease cases are routinely recorded by the
Ministry of Public Health in each of its 12 administrative zones, and these records include
pneumonia. In the seven provinces of the upper southern zone, pneumonia accounted for 6 %
of all disease cases over the nine-year period 1999-2007, and was thus the fourth most common
disease reported after diarrhea (51.2 % of cases), pyrexia of unknown origin (10.4 %), and
conjunctivitis (6.4 %). Among the diseases reported, pneumonia was by far the most lethal,
accounting for 47.7 % of all deaths from hospital-diagnosed cases of infectious diseases in the
region during the same period. However, while 59 % of these pneumonia cases occurred among
children aged less than 5 years, 89 % of the deaths occurred among older persons.
Of the seven provinces in the zone, Surat Thani province recorded the highest average
incidence rate of pneumonia cases (8.3 %) during the nine years. This province is the largest
in area and the second largest in population.
Previous publications on pneumonia mortality and morbidity in Thailand are not extensive.
They include a study by Brady et al [3] of pneumonia cases reported in 1999-2001 by the
Ministry of Public Health surveillance system in Sakaeo province near the Cambodian border.
They found that pneumonia deaths were under-reported, compared to data available from
death certificates. Suwanjutha et al [4] studied risk factors associated with mortality and
morbidity of community acquired pneumonia in Thai children younger than 5 years of age.
Based on a logistic regression model they found factors associated with severe pneumonia were
underlying heart disease, enlarged liver and cyanosis, and recommended that these findings
should be recognised by physicians treating young children with pneumonia. Reechaipichitkul
and Tantiwong [5] studied clinical features of community acquired pneumonia among patients
treated at Srinagarind Hospital in Khon Kaen province in the north-eastern region.
1.2. Objectives
While it is important to identify risk factors for pneumonia disease and thus provide a scientific
basis for setting up more effective prevention programs, our scientific objective in this study was
to identify a method to better understand the extent and patterns of temporal (seasonal and
trend) and regional variation for the disease incidence among young children in a province of
Thailand. Such knowledge can provide an effective basis for prevention when limited available
resources need to be allocated to places and in periods of increased risk. Our statistical
objective was to develop appropriate methods for the data analysis of such disease incidence.
Disease counts in individual cells, defined by period and district of illness, are mostly small
and often zero, so Poisson and negative binomial generalized linear models are often considered
most statistically appropriate, and can be used to identify cells with unusually high disease
occurrences [3], [6], [7], [8]. However, other models based on simple logarithmic transformations
of normal distributions have also been used, particularly for modeling biological counts (see,
for example,[9], [10]), and these models have the advantage that software for handling spatial
and time series correlations are more readily available (see, for example, a recent review by
[11], [12]).
In this study the methods used were based on logarithmic transformations of incidence rates
and negative binomial generalized linear models [13] and we compared results obtained from
applying these methods. We examined the quarterly incidence rates of childhood pneumonia
by age group and gender in districts of Surat Thani province of Thailand over the period
2. METHODS
2.1. Data management
Data used in the current study were taken from a registry of hospital-diagnosed infectious
disease cases collected routinely in each of Thailand’s 76 provinces by the Ministry of Public
Health. Data for each year are available in computer files with records for individual disease
cases and fields comprising characteristics of the subject and the disease, including dates of
sickness and disease diagnosis, the subject’s age, gender, and address, and the severity of the
illness including date of death for mortality cases. After extensive cleaning to correct or impute
data entry errors, the records for Surat Thani province for the nine years from 1999 to 2007
were stored in an SQL database. Pneumonia disease counts aggregated over age group (less
than 1 or 1-4), month and district were then obtained. Surat Thani province is divided into
19 districts. Incidence rates were computed as the number of cases per 1000 residents in each
demographic group and district according to the 2000 Thai Population and Housing Census.
2. METHODS
2.1. Data management
Data used in the current study were taken from a registry of hospital-diagnosed infectious
disease cases collected routinely in each of Thailand’s 76 provinces by the Ministry of Public
Health. Data for each year are available in computer files with records for individual disease
cases and fields comprising characteristics of the subject and the disease, including dates of
sickness and disease diagnosis, the subject’s age, gender, and address, and the severity of the
illness including date of death for mortality cases. After extensive cleaning to correct or impute
data entry errors, the records for Surat Thani province for the nine years from 1999 to 2007
were stored in an SQL database. Pneumonia disease counts aggregated over age group (less
than 1 or 1-4), month and district were then obtained. Surat Thani province is divided into
19 districts. Incidence rates were computed as the number of cases per 1000 residents in each
demographic group and district according to the 2000 Thai Population and Housing Census.
2.2. Statistical methods
We first calculated disease incidence in children aged less than five years in cells defined by
demographic group i, region j, period q and year t as the ratio of the number of reported cases
nijqt to Pij , the corresponding population at risk in 1000s.
The negative binomial GLM [13] is an extension of the Poisson regression model that allows
for over-dispersion. If λijqt denotes the mean incidence rate in demographic group i, region j,
period q and year t, an additive model with this distribution is expressed as
ln (λijqt) = ln(Pij ) + µ + αi + βj + ηq + γt. (1)
The terms αi
, βj , ηq and γt represent demographic group, region, period and year effects,
respectively, and are centred at 0, so that µ is a constant encapsulating the overall incidence.
The variance of this distribution is λijqt(1+λijqt/θ) with the Poisson model arising in the limit
as θ → ∞. The model fit is assessed by comparing deviance residuals with normal quantiles, and
it is also informative to plot observed counts and appropriately scaled incidence rates against
corresponding fitted values based on the model. The model also gives adjusted incidence rates
for each factor of interest, obtained by suppressing the subscripts in Equation (1) corresponding
to the other factors and replacing these terms with a constant satisfying the condition that
the sum of the disease counts based on the adjusted incidence rates matches the total. Sum
contrasts [13] were used to obtain confidence intervals for comparing the adjusted incidence
rates within each factor with the overall incidence rate. An advantage of these confidence
intervals is that they provide a simple criterion for classifying levels of a factor into three
groups according to whether each corresponding confidence interval exceeds, crosses, or is
below the overall mean.
The alternative additive log-linear model for the incidence rates with normally distributed
errors is
KONGCHOUY N ET AL.
In this model n
∗
ijqt is a simple modification of the disease count nijqt to ensure that the
incidence rates are positive enabling them to be log-transformed. In this study, three methods
were considered for this data modification. The first method involves simply omitting the cases
where the disease count is zero and using the fitted model to impute counts for these cases, a
method that may be desirable, at least as a starting point, in situations where under-reporting
is known or suspected. The second method involves adding a constant c (say 1) to all counts
so that n
∗
ijqt = nijqt + c. The third method involves replacing the zeroes by a suitably chosen
constant d without changing any values of nijqt greater than 0. In each case the model fit is
assessed by plotting studentized residuals against normal quantiles, by again plotting observed
counts and appropriately scaled incidence rates against corresponding fitted values based on
the model, and also by using the r-squared to see how much of the variation in the data is
accounted for by the model. Confidence intervals for adjusted incidence rates are also obtained
using the method described above.
In these models the errors are usually assumed to be uncorrelated, an assumption that is
likely to be violated unless the periods
แบบจำลองถดถอยเชิงล็อกสำหรับอุบัติการณ์โรคเด็กห้าปีอายุภายใต้จังหวัดสุราษฏร์ธานี 1999-20071. บทนำมีประเมินโรคเป็น สาเหตุของการตายในโลกในหมู่เด็กน้อยกว่า 5 ปี มากกว่า 95% ของการวินิจฉัยทางคลินิกจำนวนตอนทั้งหมดเกิดขึ้นในประเทศกำลังพัฒนา [1] มันเกิดจากไวรัส แบคทีเรีย หรือตัวแทนอื่น ๆ infective ป้อนระบบทางเดินหายใจ แต่เดิม ถือว่าเป็นโรคติดเชื้อ โรคเป็นตาม ICD10 เป็นโรคของระบบทางเดินหายใจ มีการติดเชื้อทางเดินหายใจไม่เท่านั้นแพร่หลายมากขึ้น แต่รุนแรงมากขึ้น บัญชีเสียชีวิตกว่า 4 ล้านปีโรคเป็นนักฆ่าหมายเลขหนึ่งของเด็กในการพัฒนาสังคม [2]KONGCHOUY N ET AL1.1. วิชาการโรคและความรุนแรงในประเทศไทยในประเทศไทย กรณีโรงพยาบาลวินิจฉัยโรคติดเชื้อทั้งหมดจะเป็นประจำถูกบันทึกโดยการกระทรวงสาธารณสุขในเขตพื้นที่ดูแลของ 12 และเรกคอร์ดเหล่านี้รวมปอดบวม ในเจ็ดจังหวัดโซนภาคใต้บน โรคคิดเป็น 6%กรณีโรคทั้งหมดในช่วงเก้าปี 1999-2007 และมีมวลมากที่สุดสี่จึงโรครายงานหลังจากท้องเสีย (51.2% กรณี), pyrexia ไม่ทราบสาเหตุ (10.4%), และแดง (6.4%) จากรายงานโรค โรคคือ โดยไกลสุดยุทธภัณฑ์บัญชี 47.7% ของทั้งหมดเสียชีวิตจากโรงพยาบาลวินิจฉัยกรณีของโรคติดเชื้อภูมิภาคในช่วงเวลาเดียวกัน อย่างไรก็ตาม ในขณะที่ 59% ของโรคเหล่านี้กรณีที่เกิดขึ้นระหว่างเด็กอายุต่ำกว่า 5 ปี 89% ของการเสียชีวิตเกิดขึ้นในหมู่คนรุ่นเก่าของจังหวัดในเขต 7 จังหวัดสุราษฏร์ธานีบันทึกค่าเฉลี่ยสูงสุดอัตราอุบัติการณ์ของโรคกรณี (8.3%) ในช่วงปี 9 จังหวัดนี้เป็นใหญ่ที่สุดในพื้นที่และสองที่ใหญ่ที่สุดในประชากรสิ่งพิมพ์ก่อนหน้านี้โรคตายและ morbidity ในไทยไม่มากมายพวกเขารวมถึงการศึกษาโดยเบรดี้ et al [3] ของกรณีโรคที่รายงานในปี 1999-2001 โดยการระบบรักษาความปลอดภัยกระทรวงสาธารณสุขจังหวัดสระแก้วใกล้ชายแดนกัมพูชาพวกเขาพบว่า ปอดบวมตายได้ภายใต้รายงาน เปรียบเทียบกับข้อมูลจากใบรับรองการตาย Suwanjutha et al [4] ศึกษาปัจจัยเสี่ยงที่เกี่ยวข้องกับการตาย และmorbidity ชุมชนมาปอดบวมในเด็กอายุน้อยกว่า 5 ปีไทยแบบจำลองการถดถอยโลจิสติกจะพบปัจจัยที่เกี่ยวข้องกับโรคที่รุนแรงได้ต้นหัวใจ ขยายตับและ cyanosis และแนะนำที่ค้นพบเหล่านี้ควรรับแพทย์ที่รักษาโรคเด็กเล็ก Reechaipichitkulและ Tantiwong [5] ที่ศึกษาลักษณะทางคลินิกของโรคในชุมชนที่ได้รับในผู้ป่วยรักษาที่โรงพยาบาล Srinagarind จังหวัดขอนแก่นในภาคตะวันออกเฉียงเหนือ1.2 วัตถุประสงค์ในขณะที่จะต้องระบุปัจจัยเสี่ยงสำหรับโรคปอดบวม และทำ ให้เป็นวิทยาศาสตร์ข้อมูลพื้นฐานสำหรับการตั้งค่าโปรแกรมป้องกันที่มีประสิทธิภาพ วัตถุประสงค์ของวิทยาศาสตร์ในการศึกษานี้ได้ระบุวิธีการที่จะเข้าใจขอบเขตและรูปแบบของชั่วคราว (ตามฤดูกาล และแนวโน้ม) และการเปลี่ยนแปลงในอุบัติการณ์ของโรคในเด็กเล็กในจังหวัดของภูมิภาคไทย ความรู้ดังกล่าวสามารถให้ข้อมูลพื้นฐานมีประสิทธิภาพป้องกันเมื่อจำกัดว่างทรัพยากรที่จำเป็นต้องปันส่วนไป ยังสถาน และระยะเวลาของความเสี่ยงที่เพิ่มขึ้น สถิติของเราวัตถุประสงค์เพื่อ พัฒนาวิธีการที่เหมาะสมสำหรับการวิเคราะห์ข้อมูลของโรคดังกล่าวได้โรคในเซลล์แต่ละเซลล์ กำหนดโดยระยะเวลาของการเจ็บป่วย เป็นส่วนใหญ่ขนาดเล็กและมักจะเป็น ศูนย์ เก็บเพื่อปัวและลบทวินามรุ่นเส้นเมจแบบทั่วไปมักจะถือว่าทางสถิติมากที่สุดเหมาะสม และสามารถใช้เพื่อระบุเซลล์กับโรคสูงผิดปกติเกิดขึ้น [3], [6], [7], [8] อย่างไรก็ตาม อื่น ๆ รุ่นแปลงลอการิทึมง่ายตามของการกระจายปกติยังใช้ โดยเฉพาะอย่างยิ่งสำหรับการสร้างโมเดลชีวภาพนับ (ดูตัวอย่าง, [9], [10]), และแบบจำลองเหล่านี้มีข้อดีที่ซอฟต์แวร์สำหรับการจัดการพื้นที่เวลาลำดับความสัมพันธ์มีมากขึ้น (ดู เช่น ความเห็นล่าสุดโดย[11], [12])ในการศึกษานี้ จากวิธีที่ใช้ในแปลงลอการิทึมของอัตราอุบัติการณ์แบบทวินามลบตั้งค่าทั่วไปแบบจำลองเชิงเส้น [13] และเราเปรียบเทียบผลลัพธ์ที่ได้จากใช้วิธีการเหล่านี้ เราตรวจสอบอัตราอุบัติการณ์รายไตรมาสของโรคเด็กตามกลุ่มอายุและเพศในเขตสุราษฏร์ธานีจังหวัดของประเทศไทยในช่วง2. วิธี2.1 จัดการข้อมูลข้อมูลที่ใช้ในการศึกษาปัจจุบันได้มาจากการรีจิสทรีของโรงพยาบาลวินิจฉัยติดเชื้อกรณีโรครวบรวมเป็นประจำในแต่ละจังหวัดที่ 76 ของประเทศไทย โดยกระทรวงสาธารณสุขภาพ ข้อมูลสำหรับแต่ละปีที่มีอยู่ในคอมพิวเตอร์แฟ้มมีระเบียนสำหรับแต่ละโรคฟิลด์ที่ประกอบด้วยลักษณะของเรื่องและโรค รวมทั้งวันและกรณีวินิจฉัยโรคและโรค เรื่องของอายุ เพศ และที่อยู่ และความรุนแรงของการการเจ็บป่วยรวมถึงวันที่ความตายในกรณีตาย หลังจากทำความสะอาดอย่างละเอียดเพื่อแก้ไข หรือ imputeข้อผิดพลาดในรายการข้อมูล ระเบียนสำหรับจังหวัดสุราษฏร์ธานีปีเก้าจาก 1999 2007ถูกเก็บไว้ในฐานข้อมูล SQL โรคปอดโรคนับรวมมากกว่ากลุ่มอายุ (น้อยกว่า 1 หรือ 1-4), เดือนและอำเภอได้แล้วรับ จังหวัดสุราษฎร์ธานีแบ่งออกเป็นเขต 19 อัตราอุบัติการณ์ถูกคำนวณเป็นจำนวนต่อ 1000 คนในแต่ละกรณีกลุ่มประชากรและอำเภอประชากรไทย 2000 และบ้านอยู่อาศัย2. วิธี2.1 จัดการข้อมูลข้อมูลที่ใช้ในการศึกษาปัจจุบันได้มาจากการรีจิสทรีของโรงพยาบาลวินิจฉัยติดเชื้อกรณีโรครวบรวมเป็นประจำในแต่ละจังหวัดที่ 76 ของประเทศไทย โดยกระทรวงสาธารณสุขภาพ ข้อมูลสำหรับแต่ละปีที่มีอยู่ในคอมพิวเตอร์แฟ้มมีระเบียนสำหรับแต่ละโรคฟิลด์ที่ประกอบด้วยลักษณะของเรื่องและโรค รวมทั้งวันและกรณีวินิจฉัยโรคและโรค เรื่องของอายุ เพศ และที่อยู่ และความรุนแรงของการการเจ็บป่วยรวมถึงวันที่ความตายในกรณีตาย หลังจากทำความสะอาดอย่างละเอียดเพื่อแก้ไข หรือ imputeข้อผิดพลาดในรายการข้อมูล ระเบียนสำหรับจังหวัดสุราษฏร์ธานีปีเก้าจาก 1999 2007ถูกเก็บไว้ในฐานข้อมูล SQL โรคปอดโรคนับรวมมากกว่ากลุ่มอายุ (น้อยกว่า 1 หรือ 1-4), เดือนและอำเภอได้แล้วรับ จังหวัดสุราษฎร์ธานีแบ่งออกเป็นเขต 19 อัตราอุบัติการณ์ถูกคำนวณเป็นจำนวนต่อ 1000 คนในแต่ละกรณีกลุ่มประชากรและอำเภอประชากรไทย 2000 และบ้านอยู่อาศัย2.2. วิธีสถิติเราต้องคำนวณอุบัติการณ์ของโรคในเด็กอายุน้อยกว่า 5 ปีในเซลล์ที่กำหนดโดยประชากรกลุ่มฉัน ภูมิภาค j, t q และปีรอบระยะเวลาเป็นอัตราส่วนของจำนวนรายงานกรณีnijqt การ Pij ประชากรที่เกี่ยวข้องที่มีความเสี่ยงในหลัก 1000ส่วนขยายของแบบจำลองถดถอยปัวที่อนุญาตให้คือ GLM ทวินามลบ [13]สำหรับการกระจายตัวที่เกิน ถ้า λijqt แสดงอัตราอุบัติการณ์เฉลี่ยในกลุ่มประชากร i, j ภูมิภาครอบระยะเวลาปีและ q t แสดงเป็นแบบจำลองที่สามารถ มีการกระจายนี้ln (λijqt) = ln (Pij) + เขต + αi + βj + ηq + γt (1)The terms αi, βj , ηq and γt represent demographic group, region, period and year effects,respectively, and are centred at 0, so that µ is a constant encapsulating the overall incidence.The variance of this distribution is λijqt(1+λijqt/θ) with the Poisson model arising in the limitas θ → ∞. The model fit is assessed by comparing deviance residuals with normal quantiles, andit is also informative to plot observed counts and appropriately scaled incidence rates againstcorresponding fitted values based on the model. The model also gives adjusted incidence ratesfor each factor of interest, obtained by suppressing the subscripts in Equation (1) correspondingto the other factors and replacing these terms with a constant satisfying the condition thatthe sum of the disease counts based on the adjusted incidence rates matches the total. Sumcontrasts [13] were used to obtain confidence intervals for comparing the adjusted incidencerates within each factor with the overall incidence rate. An advantage of these confidenceintervals is that they provide a simple criterion for classifying levels of a factor into threegroups according to whether each corresponding confidence interval exceeds, crosses, or isbelow the overall mean.The alternative additive log-linear model for the incidence rates with normally distributederrors isKONGCHOUY N ET AL.In this model n∗ijqt is a simple modification of the disease count nijqt to ensure that theincidence rates are positive enabling them to be log-transformed. In this study, three methodswere considered for this data modification. The first method involves simply omitting the caseswhere the disease count is zero and using the fitted model to impute counts for these cases, amethod that may be desirable, at least as a starting point, in situations where under-reportingis known or suspected. The second method involves adding a constant c (say 1) to all countsso that n∗ijqt = nijqt + c. The third method involves replacing the zeroes by a suitably chosenconstant d without changing any values of nijqt greater than 0. In each case the model fit isassessed by plotting studentized residuals against normal quantiles, by again plotting observedcounts and appropriately scaled incidence rates against corresponding fitted values based onthe model, and also by using the r-squared to see how much of the variation in the data isaccounted for by the model. Confidence intervals for adjusted incidence rates are also obtainedusing the method described above.In these models the errors are usually assumed to be uncorrelated, an assumption that islikely to be violated unless the periods
การแปล กรุณารอสักครู่..
