Search term selection and scraping of internet search
trend data
In the construction of Google Flu Trends model, the authors
identified search terms by performing correlations
between influenza-like illness data from the US CDC and
the top 50 million Google search queries performed in the
US over the corresponding period [8]. Such data is not
available to the public and an alternative approach to identification
of search terms was required; two approaches
Milinovich et al. BMC Infectious Diseases (2014) 14:690 Page 2 of 9
were used. Firstly terms related to diseases, the aetiological
agents and colloquialisms (such as “hep” for hepatitis or
“flu” for influenza) were manually identified. Secondly,
Google Correlate (www.google.com/trends/correlate) was
queried using monthly surveillance data (described above).
Google Correlate provides a list of up to 100 search terms
that correlate most highly with the query data. To account
for potential language shifts that may have affected search
behaviour [4], this was performed three times using surveillance
data covering the periods 2004–13, 2007–13 and
2011–13. Up to 300 search terms were downloaded from
Google Correlate for each notifiable disease (100 search
terms per period analysed) and manually sorted; any term
related to the queried notifiable disease was included,
regardless of the nature of the potential association
Suitable terms were combined with the manually identified
search terms to create a list of search terms (see
Additional file 1). No attempt was made to filter search
terms based upon biological plausibility; any term that
may be perceived to have any association with the
disease of interest was included.
Search frequencies for terms of interest were collected
through Google Trends (www.google.com/trends/). All
data extractions were performed on the 22nd of October,
2013. Google Trends was queried using each of the identified
terms at a national and state/territory level using
the entire time range available (2004–present). Google
Trends presents search frequency as a normalised data
series with values ranging from 0 to 100 (with 100 representing
the point with the highest search frequency and
other points scaled accordingly); functionality for exporting
search frequency data as a .CSV file is provided. For
the purpose of privacy, data are aggregated at a daily,
weekly or monthly level (or are restricted if there is insufficient
search volume). The level of aggregation applied is
determined by the period analysed and the search frequency;
the level of aggregation is not able to be specified
by the user. As the notifiable disease surveillance data
used was in monthly format, monthly indices of query
search frequencies were required. Monthly indices are displayed
graphically by Google Trends when querying periods
greater than 36 months; rather than downloading.
CSV files, a script was developed to scrape data from the
Google Trends webpage, allowing the problems associated
with the level of data aggregation to be overcome.
Data analysis
Analyses were performed at both national and state levels
for the period 2009–13. As state-level search frequency
data were not always available, particularly for less common
diseases (due to low search frequency at this level of
disaggregation), correlations between state-level notification
data and national search frequency data were also
performed. Owing to the large number of correlations
performed in this study, Bonferroni adjustments [25] were
applied to significance levels by the equation 1-(1-α)
1/n; all
p-values reported in this document correspond to onetailed
tests. Spearman’s rank correlation coefficients were
used to rank performance.
Time-series cross correlations were performed to assess
linear associations between disease notifications and
Google Trend search indices. Cross correlations were
calculated using lag values for Google Trends data ranging
from −7 to 7. This range allowed for assessment of
biologically plausible associations that were relevant to
the development of early warning systems. Cross correlations
were performed on national data using IBM SPSS
version 21 (SPSS Inc; Chicago, IL, USA). Seasonal differencing
was applied (value 1) to all analyses to remove
cyclic trends.
Whilst all available data (2004–13) were downloaded,
analyses for this study were focused on the most recent
five years (2009–13) as preliminary data analyses indicated
that Google Trends data were not available prior
to 2009 for numerous search terms (Figure 1; panels 2,
4, 9, 12, 16 and 17). Additionally, shifts in language are
known to affect surveillance systems built upon textual
data [4]. The shortened period (2009–13) was selected to
minimise the effects of language shifts. However, this
period still provides the requisite 50 pairs of observations
for performing cross correlations [26].
เลือกเงื่อนไขการค้นหาและ scraping อินเทอร์เน็ตข้อมูลแนวโน้มในการก่อสร้างรูปแบบแนวโน้มไข้หวัด Google ผู้เขียนคำค้นหาที่ระบุ โดยการดำเนินความสัมพันธ์ระหว่างข้อมูลนิดจากขั้นรุนแรงเรา และดำเนินการแบบสอบถามการค้นหา Google บน 50 ล้านตัวเราผ่านรอบระยะเวลาสอดคล้องกัน [8] ข้อมูลดังกล่าวไม่มีประชาชนและวิธีการอื่นเพื่อระบุเงื่อนไขการค้นหาถูกต้อง วิธีที่สองโรค Milinovich et al. BMC (2014) 14:690 หน้า 2 ของ 9ใช้ ประการแรก การเงื่อนไขที่เกี่ยวข้องกับโรค ที่ aetiologicalตัวแทนและ colloquialisms (เช่น "hep" สำหรับโรค หรือ"ไข้หวัด" สำหรับไข้หวัดใหญ่) ระบุด้วยตนเอง ประการที่สองGoogle สร้างความสัมพันธ์ (www.google.com/ แนวโน้ม/เชื่อมโยง)สอบถามโดยใช้ข้อมูลเฝ้าระวังประจำเดือน (ข้าง)Google ที่เชื่อมโยงแสดงรายการของคำค้นหาสูงสุด 100ที่ซึ่งสูงสุดกับข้อมูลแบบสอบถาม การบัญชีสำหรับกะภาษาเป็นไปได้ที่อาจได้รับผลการค้นหาพฤติกรรม [4], นี้ทำครั้งที่สามใช้เฝ้าระวังข้อมูลที่ครอบคลุมรอบระยะเวลาปี 2004 – 13, 2007-13 และ2011 – 13 ถึง 300 ค้นหา เงื่อนไขที่ดาวน์โหลดจากGoogle ซึ่งแต่ละโรคระบาด (100 ค้นหาเงื่อนไขต่องวด analysed) และเรียง ลำดับด้วยตนเอง เงื่อนไขใด ๆที่เกี่ยวข้องกับการสอบถามโรคระบาดได้รวมโดยธรรมชาติของความสัมพันธ์เป็นไปได้เงื่อนไขที่เหมาะสมได้รวมกับการระบุด้วยตนเองคำค้นหาเพื่อสร้างรายการของคำค้นหา (ดูเพิ่มเติมแฟ้ม 1) ไม่พยายามค้นหาตัวกรองเงื่อนไขตามทางชีวภาพ มีระยะที่อาจถือว่ามีความสัมพันธ์กับการโรคน่าสนใจถูกรวมมีการรวบรวมความถี่ในการค้นหาสำหรับเงื่อนไขการคิดดอกเบี้ยโดยแนวโน้ม Google (แนวโน้ม www.google.com/ /) ทั้งหมดสกัดข้อมูลดำเนินบนที่ 22 ตุลาคม2013 แนวโน้ม Google ถูกสอบถามโดยใช้ของที่ระบุเงื่อนไขแห่งชาติและใช้ระดับรัฐ/อาณาเขตเวลาทั้งหมดช่วงว่าง (2547 – ปัจจุบัน) Googleความถี่แนวโน้มแสดงค้นหาเป็นข้อมูล normalisedชุด มีค่าตั้งแต่ 0 ถึง 100 (มีการแสดง 100จุดที่ มีความถี่ในการค้นหาสูงสุด และอื่น ๆ จุดปรับตาม); ฟังก์ชันสำหรับการส่งออกค้นหาข้อมูลความถี่ไฟล์ CSV ที่มีให้ สำหรับวัตถุประสงค์ของความเป็นส่วนตัว ข้อมูลที่รวมอยู่ในทุกวันรายสัปดาห์ หรือรายเดือนระดับ (หรือถูกจำกัดหากมีไม่เพียงพอค้นหาเสียง) ระดับของการรวมที่ใช้ตามรอบระยะเวลาที่ analysed และความถี่ในการค้นหาไม่สามารถระบุระดับการรวมโดยผู้ใช้งาน เป็นข้อมูลเฝ้าระวังโรคระบาดใช้ได้ในรูปแบบรายเดือน รายเดือนดัชนีของแบบสอบถามความถี่ในการค้นหาถูกต้อง แสดงดัชนีเดือนภาพ โดยแนวโน้ม Google เมื่อรอบระยะเวลาการสอบถามมากกว่า 36 เดือน แทนที่ดาวน์โหลดไฟล์ CSV สคริปต์ได้รับการพัฒนาเกาข้อมูลจากการทำให้ปัญหาการเชื่อมโยงแนวโน้ม Google เว็บเพจมีระดับของการรวมกลุ่มข้อมูลที่จะเอาชนะการวิเคราะห์ข้อมูลวิเคราะห์ได้ดำเนินการในระดับรัฐ และชาติในช่วงปี 2009 – 13 เป็นความถี่ในการค้นหาระดับรัฐข้อมูลมีไม่เสมอ โดยเฉพาะอย่างยิ่งสำหรับทั่วไปน้อยกว่าโรค (เนื่องจากความถี่ต่ำสุดที่ค้นหาในระดับนี้disaggregation), รัฐความสัมพันธ์ระหว่างระดับการแจ้งเตือนข้อมูลและข้อมูลความถี่แห่งชาติแนะนำดำเนินการ เพราะจำนวนมากของความสัมพันธ์ดำเนินการในการศึกษานี้ Bonferroni ปรับปรุง [25] ได้ใช้ระดับความสำคัญ โดยสมการ 1-(1-α)1/n ทั้งหมดค่า p ที่รายงานในเอกสารนี้สอดคล้องกับ onetailedทดสอบ มีค่าสัมประสิทธิ์สหสัมพันธ์อันดับของ spearmanใช้ประสิทธิภาพเยี่ยมเวลาชุดดำเนินการประเมินความสัมพันธ์ระหว่างความสัมพันธ์เชิงเส้นระหว่างแจ้งเตือนโรค และดัชนีค้นหาของ Google แนวโน้ม มีความสัมพันธ์กันคำนวณโดยใช้ค่าความล่าช้าสำหรับแนวโน้ม Google ข้อมูลตั้งแต่จาก −7 ถึง 7 ช่วงนี้ใช้ได้สำหรับการประเมินความสัมพันธ์เป็นไปได้ชิ้นที่เกี่ยวข้องกับการพัฒนาระบบแจ้งเตือนภัยล่วงหน้า ข้ามความสัมพันธ์ได้ดำเนินการโดยใช้โปรแกรม IBM ข้อมูลแห่งชาติรุ่น 21 (Inc โปรแกรม ชิคาโก IL สหรัฐอเมริกา) Differencing ตามฤดูกาลถูกนำไปใช้ (ค่า 1) การวิเคราะห์ทั้งหมดเอาแนวโน้มทุกรอบขณะดาวน์โหลดข้อมูลว่างทั้งหมด (2004 – 13)วิเคราะห์สำหรับการศึกษานี้ที่เน้นสุดห้าปี (2009 – 13) เป็นข้อมูลเบื้องต้นระบุวิเคราะห์ข้อมูลแนวโน้ม Google ไม่ว่างก่อนสำหรับเงื่อนไขการค้นหาได้มากมาย (รูปที่ 1 แผ่น 2, 25524, 9, 12, 16 และ 17) นอกจากนี้ กะในภาษามีมีผลต่อระบบรักษาความปลอดภัยที่สร้างขึ้นเป็นที่รู้จักกันข้อมูล [4] มีเลือกรอบระยะเวลาตัดให้สั้นลง (2009 – 13)ลดผลกระทบของภาษากะ อย่างไรก็ตาม นี้รอบระยะเวลายังคงแสดงคู่ requisite 50 สังเกตสำหรับการดำเนินความสัมพันธ์ระหว่าง [26]
การแปล กรุณารอสักครู่..

ค้นหาตัวเลือกยาวและขูดของการค้นหาทางอินเทอร์เน็ต
ข้อมูลแนวโน้ม
ในการก่อสร้างของรูปแบบของ Google แนวโน้มไข้หวัดใหญ่ผู้เขียน
ระบุคำที่ต้องการค้นหาโดยการดำเนินความสัมพันธ์
ระหว่างคล้ายไข้หวัดใหญ่ข้อมูลการเจ็บป่วยจากสหรัฐและ
ด้านบน 50 ล้านคำสั่งการค้นหาของ Google ดำเนินการใน
สหรัฐมากกว่า ช่วงเวลาเดียวกัน [8] ข้อมูลดังกล่าวไม่
สามารถใช้ได้กับบุคคลและวิธีการทางเลือกที่จะระบุตัวตน
ของคำค้นหาที่ถูกต้อง; สองวิธี
Milinovich และคณะ BMC โรคติดเชื้อ (2014) 14: 690 หน้า 2 จาก 9
ถูกนำมาใช้ ประการแรกคำที่เกี่ยวข้องกับโรค aetiological
ตัวแทนและ colloquialisms (เช่น "โรคตับอักเสบ" โรคไวรัสตับอักเสบหรือ
"ไข้หวัด" ไข้หวัดใหญ่) ถูกระบุด้วยตนเอง ประการที่สอง
มีความสัมพันธ์ Google (www.google.com/trends/correlate) ได้รับการ
สอบถามโดยใช้ข้อมูลการเฝ้าระวังรายเดือน (อธิบายไว้ข้างต้น).
Google มีความสัมพันธ์ให้รายการของได้ถึง 100 คำค้นหา
ที่มีความสัมพันธ์มากที่สุดกับข้อมูลแบบสอบถาม บัญชี
สำหรับการเปลี่ยนแปลงภาษาที่อาจได้รับผลกระทบมีการค้นหา
พฤติกรรม [4] นี้ได้ดำเนินการสามครั้งโดยใช้การเฝ้าระวัง
ข้อมูลที่ครอบคลุมระยะเวลา 2004-13, 2007-13 และ
2011-13 ได้ถึง 300 คำค้นหาที่ถูกดาวน์โหลดจาก
Google มีความสัมพันธ์สำหรับแต่ละโรค (notifiable 100 ค้นหา
เงื่อนไขต่อระยะเวลาการวิเคราะห์) และจัดเรียงด้วยตนเอง คำใด ๆ ที่
เกี่ยวข้องกับการแจ้งความโรคสอบถามถูกรวม
โดยไม่คำนึงถึงลักษณะของการเชื่อมโยงที่มีศักยภาพ
เงื่อนไขที่เหมาะสมถูกรวมกับที่ระบุด้วยตนเอง
คำค้นหาเพื่อสร้างรายการคำค้นหา (ดู
แฟ้มเพิ่มเติม 1) ไม่มีความพยายามใดที่จะกรองการค้นหา
คำที่อยู่บนพื้นฐานของความน่าเชื่อถือทางชีวภาพ; คำที่ใด ๆ ที่
อาจถูกมองว่าจะมีการเชื่อมโยงใด ๆ กับ
โรคที่น่าสนใจก็รวม.
ความถี่ค้นหาแง่ของดอกเบี้ยที่ถูกเก็บรวบรวม
ผ่าน Google เทรนด์ (www.google.com/trends/) ทั้งหมด
สกัดข้อมูลที่ได้ดำเนินการในวันที่ 22 ตุลาคม
2013 Google แนวโน้มได้รับการสอบถามที่ใช้แต่ละระบุ
เงื่อนไขในระดับชาติและรัฐ / ดินแดนโดยใช้
ช่วงเวลาที่มีอยู่ (2004- ปัจจุบัน) Google
Trends นำเสนอความถี่ค้นหาเป็นข้อมูลปกติ
ชุดที่มีค่าตั้งแต่ 0-100 (100 ที่เป็นตัวแทนของ
จุดที่มีความถี่ในการค้นหาสูงสุดและ
จุดอื่น ๆ ที่ปรับขนาดตาม); ฟังก์ชั่นสำหรับการส่งออก
ข้อมูลความถี่การค้นหาเป็นไฟล์ .CSV มีให้ สำหรับ
จุดประสงค์ของความเป็นส่วนตัวของข้อมูลที่มีการรวบรวมรายวัน,
รายสัปดาห์หรือรายเดือนระดับ (หรือถูก จำกัด ถ้ามีไม่เพียงพอ
ปริมาณการค้นหา) ระดับของการรวมตัวที่ใช้จะ
กำหนดโดยระยะเวลาการวิเคราะห์และความถี่ในการค้นหา;
ระดับของการรวมจะไม่สามารถที่จะระบุ
โดยผู้ใช้ ในฐานะที่เป็นข้อมูลการเฝ้าระวังโรคแจ้งความ
ที่ใช้อยู่ในรูปแบบรายเดือนดัชนีรายเดือนของแบบสอบถาม
ความถี่การค้นหาถูกต้อง ดัชนีรายเดือนจะมีการแสดง
ภาพกราฟิกโดยแนวโน้ม Google เมื่อระยะเวลาการสอบถาม
มากกว่า 36 เดือน; มากกว่าการดาวน์โหลด.
ไฟล์ CSV, สคริปต์ถูกพัฒนาขึ้นเพื่อขูดข้อมูลจาก
หน้าเว็บ Google เทรนด์ช่วยให้ปัญหาที่เกี่ยวข้อง
กับระดับของการรวบรวมข้อมูลที่จะเอาชนะ.
การวิเคราะห์ข้อมูล
การวิเคราะห์ได้ดำเนินการทั้งในระดับชาติและระดับรัฐ
สําหรับงวด 2009- 13 ในฐานะที่เป็นรัฐระดับความถี่การค้นหา
ข้อมูลที่ไม่สามารถใช้ได้เสมอโดยเฉพาะอย่างยิ่งสำหรับการร่วมกันน้อยลง
โรค (เนื่องจากความถี่การค้นหาต่ำในระดับนี้ของ
การแบ่ง) ความสัมพันธ์ระหว่างการแจ้งเตือนรัฐระดับ
ข้อมูลและการค้นหาความถี่แห่งชาติก็ยัง
ดำเนินการ เนื่องจากจำนวนมากของความสัมพันธ์ที่
ดำเนินการในการศึกษาครั้งนี้ปรับ Bonferroni [25] ถูก
นำไปใช้กับระดับนัยสำคัญโดยสม 1- (1-α)
1 / n; ทุก
P-ค่ารายงานในเอกสารฉบับนี้สอดคล้องกับ onetailed
ทดสอบ สเปียร์แมนของค่าสัมประสิทธิ์สหสัมพันธ์อันดับที่ถูก
นำมาใช้ในการจัดอันดับผลการดำเนินงาน.
เวลาชุดความสัมพันธ์ข้ามได้ดำเนินการในการประเมิน
เชิงเส้นตรงระหว่างสมาคมการแจ้งเตือนของโรคและ
ดัชนีการค้นหาของ Google เทรนด์ ความสัมพันธ์ข้ามถูก
คำนวณโดยใช้ค่าความล่าช้าสำหรับข้อมูล Google แนวโน้มตั้งแต่
จาก -7 ถึง 7 ช่วงนี้ได้รับอนุญาตในการประเมินความ
เป็นไปได้ทางชีวภาพของสมาคมที่มีความเกี่ยวข้องกับ
การพัฒนาระบบเตือนภัยล่วงหน้า ความสัมพันธ์ข้าม
ได้ดำเนินการเกี่ยวกับข้อมูลแห่งชาติใช้ IBM SPSS
รุ่น 21 (SPSS Inc, Chicago, IL, USA) ความแตกต่างของฤดูกาล
ถูกนำมาใช้ (มูลค่าที่ 1) เพื่อวิเคราะห์ทั้งหมดที่จะลบ
แนวโน้มวงจร.
ขณะที่ข้อมูลที่มีอยู่ทั้งหมด (2004-13) ถูกดาวน์โหลด
วิเคราะห์สำหรับการศึกษาครั้งนี้ได้รับการมุ่งเน้นไปที่ล่าสุด
ห้าปี (2009-13) ในขณะที่การวิเคราะห์ข้อมูลเบื้องต้นระบุ
ว่าข้อมูลของ Google แนวโน้มไม่สามารถใช้ได้ก่อน
ที่จะปี 2009 สำหรับคำค้นหาจำนวนมาก (รูปที่ 1; แผงที่ 2,
4, 9, 12, 16 และ 17) นอกจากนี้การเปลี่ยนแปลงในภาษาจะ
เป็นที่รู้จักกันจะมีผลต่อระบบการเฝ้าระวังสร้างขึ้นบนต้นฉบับ
ข้อมูล [4] ระยะเวลาที่สั้นลง (2009-13) ได้รับเลือกให้
ลดผลกระทบของการเปลี่ยนแปลงภาษา แต่นี้
ยังคงให้ระยะเวลาที่จำเป็น 50 คู่ของการสังเกต
สำหรับการดำเนินความสัมพันธ์ข้าม [26]
การแปล กรุณารอสักครู่..
