It is anticipated that this track will be at least a 2 years’ effort, and
probably more.
The first year will focus on prior art search in chemical patent IR
by investigating how well IR systems can help real world patent
examiners, inventors or patent attorneys’ prior art search tasks.
We will also propose a new Chemical Entity Search Task. We
will involve chemical and IP experts in topic creation.
We illustrate our two search tasks in Section 2.1 and 2.2, discuss
the test collection for evaluation in Section 2.3, outline the
procedure in Section 2.4, propose the evaluation strategy in
Section 2.5, and outline out evaluation goal in Section 2.6.
2.1 Prior art search task
In prior art search, a two-stage relevance judgment will be carried
out. In the first stage, documents broadly relevant to each topic
are judged. In the second stage, among relevant documents found
in the first stage, documents which can be identified as “prior art”
on the topic are identified. Standard TREC performance measures
in each stage will be reported. Measures with more focus on recall
such as the estimated Recall at different cut off levels used in
Legal Track [1, 12] will be the main performance measure.
2.2 Chemical entity search task
Entity search focuses on individual entities such as chemicals
rather than documents. We envisage that entity based chemical IR
can be more effective than document based IR in terms of direct
retrieval of knowledge and saving users’ time in reading many
documents etc. There can be a variety of sub-tasks for this task as
follows:
1. Given a topic, find relevant entities, e.g., find [chemicals] that
help the decomposition of plastic bags in the soil, or find
[oxidants] that are commonly used as preservatives.
2. Given an entity and a topic, find relevant entities, e.g., find
[chemicals] that will be oxidized in “oxygen” in room temperature.
3. Given a description of the relationship between two entities,
find pairs of entities that have the relationship between them, e.g.,
find [chemical A] that can be used as a catalyst for the reaction
between [chemical B] and oxygen.
2.3 Test collection
We will provide two types of datasets for evaluation, i.e., a
chemical patent dataset and chemical journal articles from the
Royal Society of Chemistry4.
The chemical patent data will be provided by the IRF (Information
Retrieval Facility)5.
The Royal Society of Chemistry will provide 45 thousand journal
documents published between 1997 and 2005 covering a wide
range of topics in chemistry. The full text of these documents is in
structured XML format. We expect that the rich structural
information in this dataset will help the participants develop more
effective IR systems.
We will provide the state of the art chemical name annotations or
annotation tools for the two datasets [11]. We will create 10 topics
with fairly complete relevance judgments for groups’ system
training, and 50 topics for testing. These topics will follow general
TREC topic guidelines. However, these topics may contain
Boolean operators like in the TREC legal discovery track.
2.4 Procedure
Groups download the datasets and use the 10 training topics to
tune their system. They are then given the 50 test topics to test
their systems. They submit their runs on these test topics, which
are pooled for evaluation.
2.5 Evaluation
Chemical and IP experts recruited by the IRF will be directly
involved in the evaluation. They will help create the relevance
judgments for the training topics. Depending on the amount of
evaluation work to be carried out, we may ask the participants to
help the evaluation but this requires that they have pretty good
knowledge in chemical information. This will also help create
multiple judgments for each result. The experts will help verify
the relevance judgments made by the participants, and they will
carry out manual runs as part of the verification.
It is anticipated that this track will be at least a 2 years’ effort, and
probably more.
The first year will focus on prior art search in chemical patent IR
by investigating how well IR systems can help real world patent
examiners, inventors or patent attorneys’ prior art search tasks.
We will also propose a new Chemical Entity Search Task. We
will involve chemical and IP experts in topic creation.
We illustrate our two search tasks in Section 2.1 and 2.2, discuss
the test collection for evaluation in Section 2.3, outline the
procedure in Section 2.4, propose the evaluation strategy in
Section 2.5, and outline out evaluation goal in Section 2.6.
2.1 Prior art search task
In prior art search, a two-stage relevance judgment will be carried
out. In the first stage, documents broadly relevant to each topic
are judged. In the second stage, among relevant documents found
in the first stage, documents which can be identified as “prior art”
on the topic are identified. Standard TREC performance measures
in each stage will be reported. Measures with more focus on recall
such as the estimated Recall at different cut off levels used in
Legal Track [1, 12] will be the main performance measure.
2.2 Chemical entity search task
Entity search focuses on individual entities such as chemicals
rather than documents. We envisage that entity based chemical IR
can be more effective than document based IR in terms of direct
retrieval of knowledge and saving users’ time in reading many
documents etc. There can be a variety of sub-tasks for this task as
follows:
1. Given a topic, find relevant entities, e.g., find [chemicals] that
help the decomposition of plastic bags in the soil, or find
[oxidants] that are commonly used as preservatives.
2. Given an entity and a topic, find relevant entities, e.g., find
[chemicals] that will be oxidized in “oxygen” in room temperature.
3. Given a description of the relationship between two entities,
find pairs of entities that have the relationship between them, e.g.,
find [chemical A] that can be used as a catalyst for the reaction
between [chemical B] and oxygen.
2.3 Test collection
We will provide two types of datasets for evaluation, i.e., a
chemical patent dataset and chemical journal articles from the
Royal Society of Chemistry4.
The chemical patent data will be provided by the IRF (Information
Retrieval Facility)5.
The Royal Society of Chemistry will provide 45 thousand journal
documents published between 1997 and 2005 covering a wide
range of topics in chemistry. The full text of these documents is in
structured XML format. We expect that the rich structural
information in this dataset will help the participants develop more
effective IR systems.
We will provide the state of the art chemical name annotations or
annotation tools for the two datasets [11]. We will create 10 topics
with fairly complete relevance judgments for groups’ system
training, and 50 topics for testing. These topics will follow general
TREC topic guidelines. However, these topics may contain
Boolean operators like in the TREC legal discovery track.
2.4 Procedure
Groups download the datasets and use the 10 training topics to
tune their system. They are then given the 50 test topics to test
their systems. They submit their runs on these test topics, which
are pooled for evaluation.
2.5 Evaluation
Chemical and IP experts recruited by the IRF will be directly
involved in the evaluation. They will help create the relevance
judgments for the training topics. Depending on the amount of
evaluation work to be carried out, we may ask the participants to
help the evaluation but this requires that they have pretty good
knowledge in chemical information. This will also help create
multiple judgments for each result. The experts will help verify
the relevance judgments made by the participants, and they will
carry out manual runs as part of the verification.
การแปล กรุณารอสักครู่..

ซึ่งคาดว่าเส้นทางนี้จะมีอย่างน้อย 2 ปีและความพยายาม
อาจจะมากกว่า ปีแรกจะมุ่งเน้นไปที่การค้นหาศิลปะก่อนใน
IR สิทธิบัตรยา โดยตรวจสอบว่าระบบ IR สามารถช่วยให้ผู้ตรวจสอบสิทธิบัตร
โลกจริง นักประดิษฐ์ หรือทนายความสิทธิบัตรงานค้นหาศิลปะก่อน .
เราจะยัง เสนองานค้นหานิติบุคคลเคมีใหม่ เรา
จะเกี่ยวข้องกับสารเคมีและ IP ผู้เชี่ยวชาญในการสร้างหัวข้อ
เราแสดง ของเราสอง ค้นหางานในส่วน 2.1 และ 2.2 หารือ
ชุดทดสอบสำหรับการประเมินในส่วน 2.3 , ร่าง
ขั้นตอนในส่วน 2.4 , เสนอการประเมินผลกลยุทธ์
ส่วน 2.5 และร่างเป้าหมายการประเมินผลในส่วน 2.6 .
2.1 ก่อนศิลปะ ค้นหางาน
ในการค้นหาศิลปะก่อนสองขั้นตอนการตัดสินจะถือความเกี่ยวข้อง
. ในขั้นตอนแรก เอกสารที่เกี่ยวข้อง ซึ่งแต่ละหัวข้อ
จะตัดสิน ในขั้นตอนที่สองของเอกสารที่เกี่ยวข้องพบ
ในระยะแรก เอกสารที่สามารถระบุว่าเป็น " ศิลปะ " ก่อน
ในหัวข้อที่ระบุ .
trec มาตรฐานในการวัดผลการปฏิบัติงานแต่ละขั้นตอนจะถูกรายงาน โดยมุ่งเน้นมาตรการเรียกคืน
เช่น ประมาณว่าตัดที่แตกต่างกันระดับที่ใช้ใน
ติดตามกฎหมาย [ 1 , 12 ] จะเป็นการวัดประสิทธิภาพหลัก เคมี ค้นหางาน
2.2 นิติบุคคลนิติบุคคลค้นหาเน้นหน่วยงานบุคคล เช่น สารเคมี
มากกว่าเอกสาร เราคาดการณ์ว่า นิติบุคคลตาม
และสารเคมีได้อย่างมีประสิทธิภาพมากกว่า และตามเอกสารโดยตรงในแง่ของ
การสืบค้นความรู้และการบันทึกของผู้ใช้เวลาในการอ่านมาก
เอกสาร ฯลฯ สามารถมีความหลากหลายของงานย่อยสำหรับงานนี้
1
1 ระบุหัวข้อ พบว่าองค์กรที่เกี่ยวข้อง เช่น ค้นหา [ สารเคมี ]
ช่วยการย่อยสลาย ถุงพลาสติก ในดิน หรือหา
[ อนุมูลอิสระ ] ที่นิยมใช้เป็นสารกันบูด .
2 ให้องค์กรและหน่วยงานที่เกี่ยวข้อง เช่น หัวข้อ , หา , หา
[ เคมีภัณฑ์ ] จะถูกออกซิไดซ์ใน " ออกซิเจน " ในอุณหภูมิห้อง .
3 ได้รับรายละเอียดของความสัมพันธ์ระหว่างสององค์กร
หาคู่หน่วยงานที่ความสัมพันธ์ระหว่างพวกเขาเช่น
[ ] หาสารเคมีที่สามารถใช้เป็นตัวเร่งปฏิกิริยาสำหรับปฏิกิริยาทางเคมีระหว่าง [ b ]
และ ออกซิเจน และทดสอบชุด
เราจะให้สองชนิดของข้อมูลสำหรับการประเมิน I ,
ข้อมูลบทความจากวารสารทางสังคมของ chemistry4
สิทธิบัตรเคมี เคมีข้อมูลสิทธิบัตรจะได้รับโดย IRF ( ศูนย์สารสนเทศ
) 5 . สมาคมเคมีแห่งจะให้ 45 พันวารสาร
เอกสารที่ตีพิมพ์ระหว่างปี 1997 และ 2005 ครอบคลุมกว้าง
ช่วงของหัวข้อในวิชาเคมี ข้อความเต็มของเอกสารเหล่านี้อยู่ใน
รูปแบบ XML แบบมีโครงสร้างเราคาดหวังว่าข้อมูลโครงสร้าง
รวยในชุดข้อมูลนี้จะช่วยให้ผู้เข้าร่วมพัฒนาระบบและมีประสิทธิภาพมากขึ้น
.
เราจะมีสถานะของศิลปะชื่อ บันทึกย่อ หรือเครื่องมือหมายเหตุสำหรับข้อมูล
2 [ 11 ] เราจะสร้าง 10 หัวข้อ
ด้วยการตัดสินความเกี่ยวข้องค่อนข้างสมบูรณ์สำหรับระบบการฝึกอบรม
กลุ่ม ' , และ 50 หัวข้อสำหรับการทดสอบ หัวข้อเหล่านี้จะตามทั่วไป
แนวทาง trec หัวข้อ อย่างไรก็ตาม หัวข้อเหล่านี้อาจประกอบด้วย
บูลีนผู้ประกอบการเหมือนใน trec การค้นพบทางกฎหมายติดตาม กลุ่ม 2.4 ขั้นตอน
ดาวน์โหลดข้อมูล และใช้ 10 หัวข้อการฝึกอบรม
ปรับแต่งระบบของพวกเขา พวกเขาจะได้รับแล้ว 50 หัวข้อทดสอบทดสอบ
ระบบของพวกเขา พวกเขาส่งวิ่งของพวกเขาในหัวข้อการทดสอบเหล่านี้ซึ่งจะรวมการประเมิน
.
2.5 การประเมินผลเคมี และผู้เชี่ยวชาญด้าน IP ถูก IRF จะตรง
มีส่วนร่วมในการประเมินผล พวกเขาจะช่วยสร้างความเกี่ยวข้อง
คำตัดสินสำหรับการฝึกอบรมหัวข้อ ทั้งนี้ขึ้นอยู่กับปริมาณของ
การประเมินการทำงานจะดำเนินการเราอาจขอให้ผู้เข้าร่วม
ช่วยประเมิน แต่ต้องการให้พวกเขามีความรู้ดี
ข้อมูลทางเคมี นี้จะช่วยสร้าง
ตัดสินหลายสำหรับแต่ละผล ผู้เชี่ยวชาญจะช่วยตรวจสอบ
ความเกี่ยวข้องตัดสินโดยผู้เข้าร่วม และพวกเขาจะทำตามคู่มือ
วิ่งเป็นส่วนหนึ่งของการตรวจสอบ
การแปล กรุณารอสักครู่..
