Methods
Data Source
We used existing electronic medical record data from the Veterans Administration (VA) Informatics and Computing
Infrastructure (VINCI) database. Available to VA researchers, this database includes over 20 million unique patient
electronic medical records from all VA hospitals and clinics in the United States, which are compiled using uniform
coding of data elements. VINCI also includes a suite of research tools to facilitate analysis, such as natural language
processing.
To identify concurrent usage of ginkgo and warfarin, we queried both structured and free text data in the VINCI
database. We queried the clinical documents table for information containing the terms “ginkgo” and variants
“ginkgo” and “ginko.” Of the matching documents approximately 50% used the terms ginkgo, 25% gingko, and
25% ginko. We also queried the filled prescriptions table for the term “warfarin” and its alternate brand names
(Jantoven, Coumadin, Marevan, Lawarin, Waran, and Warfant). There were no occurrences of the alternate brand
names, since they are not on the VA formulary, so future queries only used warfarin.
Natural Language Processing (NLP)
An NLP module was developed to further process the notes retrieved by the ginkgo query. We prioritized the NLP
of ginkgo cases because little structured data are available for herbal supplement usage (Table 1).
For NLP development, we randomly selected 100 patients with notes containing any mention of ginkgo or one of its
spelling variants (n=441) to create an annotated data set. Two reviewers developed a guideline to establish true
positive cases and conducted chart review. The inter-reviewer agreement was calculated (Cohen’s kappa = 0.82).
Based on the manual review, we first crafted a set of processing rules to classify highly prevalent document
templates (n=41). These processing rules identified positive occurrences of ginkgo in patient supplement lists
recorded within the documents as well as negative occurrences of ginkgo in standard documents instructing the
patient not to take ginkgo prior to an upcoming surgery. Then using the annotated documents that do not contain
templates, we trained a support vector machine (SVM) model to classify the remaining notes not covered by the
template rules. The SVM developed was conducted using the Waikato Environment for Knowledge Analysis
(WIKA) sequential minimal optimization (SMO) algorithm with the default parameters and bag-of-word features.
The final NLP module first applies the template rules and then applies the SVM model.
To test the NLP module, we further annotated another 200 randomly selected notes retrieved by the ginkgo query
and calculated the sensitivity and specificity of the NLP module. On the 200 randomly selected ginkgo notes, the
NLP model reached a sensitivity of 97%, specificity of 87%, and F measure of 93%. Applying this NLP model to all
ginkgo related notes (n=836,506), 600,107 documents and 132,061 patients were identified as positive.
The documentation of ginkgo usage often does not specify the start date or duration. The warfarin exposure was
calculated using the VINCI pharmacy fill record. Co-administration was established when patients were exposed to
both ginkgo and warfarin. Combining the NLP results with medical fill records, we found 54,139 combined use
events in 9,862 distinct patients (Table 2).
Table 1. Comparison of # of dual use patients (ginkgo + warfarin) identified using structured
MethodsData SourceWe used existing electronic medical record data from the Veterans Administration (VA) Informatics and ComputingInfrastructure (VINCI) database. Available to VA researchers, this database includes over 20 million unique patientelectronic medical records from all VA hospitals and clinics in the United States, which are compiled using uniformcoding of data elements. VINCI also includes a suite of research tools to facilitate analysis, such as natural languageprocessing.To identify concurrent usage of ginkgo and warfarin, we queried both structured and free text data in the VINCIdatabase. We queried the clinical documents table for information containing the terms “ginkgo” and variants“ginkgo” and “ginko.” Of the matching documents approximately 50% used the terms ginkgo, 25% gingko, and25% ginko. We also queried the filled prescriptions table for the term “warfarin” and its alternate brand names(Jantoven, Coumadin, Marevan, Lawarin, Waran, and Warfant). There were no occurrences of the alternate brandnames, since they are not on the VA formulary, so future queries only used warfarin.Natural Language Processing (NLP)An NLP module was developed to further process the notes retrieved by the ginkgo query. We prioritized the NLPof ginkgo cases because little structured data are available for herbal supplement usage (Table 1).For NLP development, we randomly selected 100 patients with notes containing any mention of ginkgo or one of itsspelling variants (n=441) to create an annotated data set. Two reviewers developed a guideline to establish truepositive cases and conducted chart review. The inter-reviewer agreement was calculated (Cohen’s kappa = 0.82).Based on the manual review, we first crafted a set of processing rules to classify highly prevalent documenttemplates (n=41). These processing rules identified positive occurrences of ginkgo in patient supplement listsrecorded within the documents as well as negative occurrences of ginkgo in standard documents instructing thepatient not to take ginkgo prior to an upcoming surgery. Then using the annotated documents that do not containtemplates, we trained a support vector machine (SVM) model to classify the remaining notes not covered by thetemplate rules. The SVM developed was conducted using the Waikato Environment for Knowledge Analysis(WIKA) sequential minimal optimization (SMO) algorithm with the default parameters and bag-of-word features.The final NLP module first applies the template rules and then applies the SVM model.To test the NLP module, we further annotated another 200 randomly selected notes retrieved by the ginkgo queryand calculated the sensitivity and specificity of the NLP module. On the 200 randomly selected ginkgo notes, theNLP model reached a sensitivity of 97%, specificity of 87%, and F measure of 93%. Applying this NLP model to allginkgo related notes (n=836,506), 600,107 documents and 132,061 patients were identified as positive.The documentation of ginkgo usage often does not specify the start date or duration. The warfarin exposure wascalculated using the VINCI pharmacy fill record. Co-administration was established when patients were exposed toboth ginkgo and warfarin. Combining the NLP results with medical fill records, we found 54,139 combined useevents in 9,862 distinct patients (Table 2).Table 1. Comparison of # of dual use patients (ginkgo + warfarin) identified using structured
การแปล กรุณารอสักครู่..

วิธีการ
แหล่งข้อมูล
เราใช้ข้อมูลที่มีอยู่ในเวชระเบียนอิเล็กทรอนิกส์จากทหารผ่านศึกบริหาร (VA) สารสนเทศและคอมพิวเตอร์
โครงสร้างพื้นฐาน (วินชี) ฐานข้อมูล จำหน่ายให้กับนักวิจัย VA, ฐานข้อมูลนี้รวมกว่า 20 ล้านที่ไม่ซ้ำกันของผู้ป่วย
เวชระเบียนอิเล็กทรอนิกส์จากทั่วทุกโรงพยาบาลเวอร์จิเนียและคลินิกในสหรัฐอเมริกาซึ่งมีการรวบรวมโดยใช้เครื่องแบบ
เข้ารหัสขององค์ประกอบข้อมูล วินชียังรวมถึงชุดเครื่องมือวิจัยเพื่ออำนวยความสะดวกในการวิเคราะห์เช่นภาษาธรรมชาติ
การประมวลผล.
การระบุการใช้งานพร้อมกันแปะก๊วยและ warfarin เราสอบถามข้อมูลทั้งข้อความที่มีโครงสร้างและฟรีในวินชี
ฐานข้อมูล เราสอบถามตารางเอกสารทางคลินิกสำหรับข้อมูลที่มีคำว่า "แปะก๊วย" และตัวแปร
"แปะก๊วย" และ "แป๊ะก๊วย." เอกสารที่ตรงกันประมาณ 50% ใช้ข้อกำหนดแปะก๊วย Gingko 25% และ
แป๊ะก๊วย 25% นอกจากนี้เรายังสอบถามตารางใบสั่งยาที่เต็มไปด้วยคำว่า "warfarin" และชื่อแบรนด์อื่นของตน
(Jantoven, Coumadin, Marevan, Lawarin, Waran และ Warfant) มีการเกิดขึ้นของยี่ห้ออื่นไม่มี
ชื่อเนื่องจากพวกเขาไม่ได้อยู่ในบัญชียา VA แบบสอบถามในอนาคตเท่านั้นดังนั้น warfarin ใช้.
ประมวลผลภาษาธรรมชาติ (NLP)
โมดูล NLP ได้รับการพัฒนาต่อไปดำเนินการบันทึกดึงข้อมูลโดยแบบสอบถามแปะก๊วย เราจัดลำดับความสำคัญ NLP
ของกรณีแปะก๊วยเพราะข้อมูลที่มีโครงสร้างเล็ก ๆ น้อย ๆ ที่มีอยู่สำหรับการใช้อาหารเสริมสมุนไพร (ตารางที่ 1).
สำหรับการพัฒนา NLP เราสุ่มเลือกผู้ป่วย 100 กับบันทึกที่มีการกล่าวถึงใด ๆ ของแปะก๊วยหรือหนึ่งใน
สายพันธุ์สะกด (n = 441) เพื่อ สร้างชุดข้อมูลข้อเขียน ความคิดเห็นที่สองการพัฒนาแนวทางในการสร้างความจริง
กรณีบวกและปฏิบัติงานสอบทานแผนภูมิ ข้อตกลงระหว่างวิจารณ์ที่คำนวณได้ (โคเฮน Kappa = 0.82).
ขึ้นอยู่กับการตรวจสอบด้วยตนเองครั้งแรกที่เราสร้างขึ้นมาชุดของกฎการประมวลผลในการจำแนกเอกสารที่แพร่หลายอย่างมาก
แม่แบบ (n = 41) กฎการประมวลผลเหล่านี้ระบุเหตุการณ์ที่เกิดขึ้นในเชิงบวกของแปะก๊วยในรายการอาหารเสริมผู้ป่วย
บันทึกภายในเอกสารเช่นเดียวกับที่เกิดขึ้นในเชิงลบของแปะก๊วยในเอกสารมาตรฐานสอน
ผู้ป่วยที่จะไม่ใช้แปะก๊วยก่อนที่จะผ่าตัดที่จะเกิดขึ้น จากนั้นใช้เอกสารข้อเขียนที่ไม่ได้มี
แม่แบบที่เราผ่านการฝึกอบรมการสนับสนุนเครื่องเวกเตอร์ (SVM) รุ่นที่จะจัดบันทึกที่เหลือไม่ได้รับการคุ้มครองโดย
กฎแม่แบบ SVM พัฒนาได้ดำเนินการโดยใช้สิ่งแวดล้อม Waikato สำหรับการวิเคราะห์ความรู้
(เปลี่ยนภาษา) ขั้นตอนวิธีการเรียงลำดับการเพิ่มประสิทธิภาพน้อยที่สุด (SMO) ที่มีค่าเริ่มต้นและคุณสมบัติถุงของคำว่า.
โมดูล NLP สุดท้ายครั้งแรกที่ใช้กฎแม่แบบแล้วใช้รุ่น SVM
เพื่อทดสอบโมดูล NLP เราต่อไปอีก 200 ข้อเขียนบันทึกสุ่มเลือกดึงข้อมูลโดยแบบสอบถามแปะก๊วย
และการคำนวณค่าความไวและความจำเพาะของโมดูล NLP บน 200 โน้ตแปะก๊วยการสุ่มเลือกที่
รุ่น NLP ถึงความไวของ 97% ความจำเพาะ 87% และมาตรการ F 93% การประยุกต์ใช้แบบจำลองนี้ NLP ทุก
บันทึกที่เกี่ยวข้องกับแปะก๊วย (n = 836,506) 600,107 เอกสารและผู้ป่วย 132,061 ถูกระบุว่าเป็นบวก.
เอกสารประกอบการใช้งานแปะก๊วยมักจะไม่ได้ระบุวันที่เริ่มต้นหรือระยะเวลา การเปิดรับ warfarin ได้รับการ
คำนวณโดยใช้วินชีร้านขายยาบันทึกการเติม ร่วมบริหารก่อตั้งขึ้นเมื่อผู้ป่วยได้สัมผัสกับ
ทั้งแปะก๊วยและ warfarin รวม NLP ส่งผลให้มีผลการเติมทางการแพทย์เราพบ 54,139 ใช้รวม
เหตุการณ์ที่เกิดขึ้นในผู้ป่วย 9862 ที่แตกต่างกัน (ตารางที่ 2).
ตารางที่ 1 การเปรียบเทียบจำนวนผู้ป่วยที่ใช้คู่ (แปะก๊วย + warfarin) ระบุการใช้โครงสร้าง
การแปล กรุณารอสักครู่..
