The rapid and extensive pervasion o

The rapid and extensive pervasion of information through the web has enhanced the
diffusion of a huge amount of unstructured natural language textual resources. A great
interest has arisen in the last decade for discovering, accessing and sharing such a vast
source of knowledge. For this reason, processing very large data volumes in a reasonable
time frame is becoming a major challenge and a crucial requirement for many commercial
and research fields. Distributed systems, computer clusters and parallel computing
paradigms have been increasingly applied in the recent years, since they introduced
significant improvements for computing performance in data-intensive contexts, such as
Big Data mining and analysis. Natural Language Processing, and particularly the tasks of
text annotation and key feature extraction, is an application area with high computational
requirements; therefore, these tasks can significantly benefit of parallel architectures. This
paper presents a distributed framework for crawling web documents and running Natural
Language Processing tasks in a parallel fashion. The system is based on the Apache
Hadoop ecosystem and its parallel programming paradigm, called MapReduce. In the
specific, we implemented a MapReduce adaptation of a GATE application and framework
(a widely used open source tool for text engineering and NLP). A validation is also offered
in using the solution for extracting keywords and keyphrase from web documents in a
multi-node Hadoop cluster. Evaluation of performance scalability has been conducted
against a real corpus of web pages and documents.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

Pervasion อย่างรวดเร็ว และกว้างขวางของข้อมูลผ่านทางเว็บได้เพิ่มแบบแพร่ของจำนวนมากของทรัพยากรจะไม่มีโครงสร้างภาษา ดีเกิดสนใจในทศวรรษสำหรับค้นหา เข้าถึง และร่วมกันดังกล่าวมีมากมายแหล่งที่มาของความรู้ ด้วยเหตุนี้ ประมวลผลการไดรฟ์ข้อมูลขนาดใหญ่มากในความสมเหตุสมผลกรอบเวลาเป็น ความท้าทายที่สำคัญและความสำคัญการค้ามากมายและสาขาวิจัย ระบบแบบกระจาย คลัสเตอร์คอมพิวเตอร์ และคอมพิวเตอร์แบบขนานparadigms ได้มากขึ้นใช้ในปีล่าสุด เนื่องจากพวกเขาแนะนำปรับปรุงที่สำคัญสำหรับการคำนวณประสิทธิภาพในบริบทข้อมูลมาก เช่นการทำเหมืองข้อมูลขนาดใหญ่และการวิเคราะห์ การประมวลผลภาษาธรรมชาติ และโดยเฉพาะอย่างยิ่งงานของข้อความคำอธิบายและคีย์คุณลักษณะแยก เป็นพื้นที่แอพพลิเคชัน มีสูงคำนวณความต้องการ ดังนั้น งานเหล่านี้สามารถได้รับประโยชน์อย่างมีนัยสำคัญของสถาปัตยกรรมแบบขนาน นี้กระดาษนำเสนอกรอบกระจาย การตระเวนเอกสารเว็บทำธรรมชาติภาษาที่ดำเนินงานในแบบขนาน Apache ที่ใช้ระบบระบบนิเวศอย่างไร Hadoop และกระบวนทัศน์การเขียนโปรแกรมแบบขนาน เรียก MapReduce ในเฉพาะ เรานำมาใช้ปรับ MapReduce ใช้ประตูและกรอบ(มาเปิดที่ใช้กันอย่างแพร่หลายเครื่องมือวิศวกรรมข้อความและ NLP) นอกจากนี้ยังมีการตรวจสอบในการใช้โซลูชั่นสำหรับการดึงข้อมูลคำสำคัญและ keyphrase จากเว็บเอกสารในการคลัสเตอร์โหนหลายอย่างไร Hadoop มีการดำเนินการประเมินประสิทธิภาพการทำงานภาระจากคอร์พัสคริที่แท้จริงของเว็บเพจและเอกสาร

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

pervasion
รวดเร็วและกว้างขวางของข้อมูลผ่านทางเว็บได้เพิ่มการแพร่กระจายของจำนวนมากของทรัพยากรที่เป็นข้อความภาษาธรรมชาติที่ไม่มีโครงสร้าง ยอดเยี่ยมที่น่าสนใจเกิดขึ้นในทศวรรษที่ผ่านมาสำหรับการค้นพบการเข้าถึงและการใช้งานร่วมกันเช่นกว้างใหญ่แหล่งที่มาของความรู้ ด้วยเหตุนี้การประมวลผลปริมาณข้อมูลขนาดใหญ่มากในที่เหมาะสมกรอบเวลาที่จะกลายเป็นความท้าทายที่สำคัญและความต้องการที่สำคัญสำหรับการค้าหลายเขตข้อมูลและการวิจัย ระบบการกระจายกลุ่มคอมพิวเตอร์และการประมวลผลแบบขนานกระบวนทัศน์ที่มีการใช้มากขึ้นในปีที่ผ่านมาเนื่องจากพวกเขาแนะนำการปรับปรุงที่สำคัญสำหรับการทำงานในบริบทการคำนวณข้อมูลจำนวนมากเช่นการทำเหมืองข้อมูลขนาดใหญ่และการวิเคราะห์ ประมวลผลภาษาธรรมชาติและโดยเฉพาะอย่างยิ่งงานของบันทึกย่อข้อความและการสกัดคุณลักษณะที่สำคัญคือการใช้พื้นที่ที่มีการคำนวณสูงต้องการ; ดังนั้นงานเหล่านี้จะได้รับประโยชน์อย่างมีนัยสำคัญของสถาปัตยกรรมแบบขนาน นี้กระดาษที่นำเสนอกรอบการกระจายสำหรับการรวบรวมข้อมูลเอกสารเว็บและทำงานธรรมชาติงานการประมวลผลภาษาในแบบคู่ขนาน ระบบจะขึ้นอยู่กับ Apache ระบบนิเวศ Hadoop และกระบวนทัศน์การเขียนโปรแกรมแบบขนานที่เรียกว่า MapReduce ในที่เฉพาะเจาะจงที่เราดำเนินการปรับตัว MapReduce ของโปรแกรมประตูและกรอบการ (เครื่องมือเปิดแหล่งที่มาใช้กันอย่างแพร่หลายสำหรับวิศวกรรมข้อความและ NLP) การตรวจสอบนอกจากนี้ยังมีการใช้วิธีการแก้ปัญหาสำหรับการแยกคำและ keyphrase จากเอกสารเว็บในกลุ่มHadoop หลายโหนด การประเมินผลการดำเนินงานขยายขีดความสามารถได้รับการดำเนินการกับร่างกายที่แท้จริงของหน้าเว็บและเอกสาร

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.