The big data trend in the area of n

The big data trend in the area of natural language processing (NLP) is well expressed in concluding remarks of
the Google research team (p. 12 in1), which can be summarized in six words: More words and less linguistic
annotation! However, publicly available large-scale n-gram systems are still the privilege of only 11 Indo-European
languages2,3, the Chinese4 and the Japanese language5. In all cases the WaC (Web as Corpus) approach to big data
collection was applied. The WaC trend was followed by South Slavic computational linguists too, which have
created recently the corpora for Croatian and Slovene language6. In this specific case one must allow for the
closeness of the South Slavic languages. The amount of texts written in neighboring languages (especially close to
each other are those derived from the former Serbo-Croatian language) within a preselected set of HTML documents
is not negligible, and there is no simple and effective way to filter them out, in order to create a “clean” web-corpus
for a desired South Slavic language (the standard language identification procedure based on word filters does not
help). As far as we know, the Croatian WaC is still in a cleaning process, three years after its creation.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ดีมีแสดงแนวโน้มข้อมูลขนาดใหญ่ในพื้นที่ของภาษาธรรมชาติ (NLP) การประมวลผลในการสรุปข้อสังเกตของทีมวิจัย Google (p. 12 in1), ซึ่งสามารถสรุปในคำที่หก: คำเพิ่มเติม และภาษาศาสตร์น้อยคำอธิบาย อย่างไรก็ตาม ระบบ n กรัมขนาดใหญ่เผยยังมีสิทธิ์ Indo-European 11 เท่านั้นlanguages2, 3, Chinese4 และ language5 ญี่ปุ่น ในกรณีที่วิธี WaC (เว็บเป็นคอร์พัสคริ) กับข้อมูลขนาดใหญ่คอลเลกชันถูกใช้ แนวโน้ม WaC ได้ตามนักภาษาศาสตร์เชิงคำนวณสลาวิกใต้มากเกินไป ซึ่งมีเพิ่งสร้าง corpora ในโครเอเชียและ Slovene language6 ในกรณีนี้เฉพาะ หนึ่งต้องให้สำหรับการความใกล้เคียงภาษาสลาวิกใต้ จำนวนข้อความที่เขียนใกล้เคียงภาษา (โดยเฉพาะอย่างยิ่งการปิดกันมีที่มาจากภาษา Serbo-Croatian เดิม) ภายในเอกสาร HTML ชุดไว้ล่วงหน้าไม่ระยะ และมีวิธีง่าย และมีประสิทธิภาพ เพื่อกรองพวกเขา เพื่อสร้างเป็นเว็บคอร์พัสคริ "สะอาด"ในภาษาสลาวิกใต้ต้อง (ขั้นตอนการระบุภาษามาตรฐานตามตัวกรองคำไม่ได้ช่วย) เท่าที่เรารู้ว่า WaC โครเอเชียได้ยังอยู่ในกระบวนการทำความสะอาด สามปีหลังจากที่สร้าง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

แนวโน้มข้อมูลขนาดใหญ่ในพื้นที่ของการประมวลผลภาษาธรรมชาติ (NLP) จะแสดงได้ดีในบทสรุปของ
ทีมวิจัยของ Google (หน้า 12 in1.) ซึ่งสามารถสรุปได้ในหกคำ: คำพูดและภาษาอื่น ๆ น้อยลง
บันทึกย่อ! อย่างไรก็ตามสาธารณชนขนาดใหญ่ระบบ N-กรัมยังคงมีสิทธิ์เพียง 11 ยูโรเปีย
languages2,3, Chinese4 และภาษาที่ 5 ของญี่ปุ่น ในทุกกรณี WAC (เว็บเป็นคอร์ปัส) วิธีการที่ข้อมูลขนาดใหญ่
ถูกนำไปใช้คอลเลกชัน แนวโน้ม WAC ตามมาด้วยนักภาษาศาสตร์คำนวณสลาฟใต้เกินไปซึ่งได้
สร้างขึ้นเมื่อเร็ว ๆ นี้ corpora สำหรับโครเอเชียและสโลวีเนีย language6 ในกรณีนี้โดยเฉพาะอย่างใดอย่างหนึ่งจะต้องอนุญาตให้มี
ความใกล้ชิดของภาษาสลาฟใต้ จำนวนของข้อความที่เขียนในภาษาเพื่อนบ้าน (โดยเฉพาะอย่างยิ่งใกล้กับ
แต่ละอื่น ๆ เป็นผู้ที่มาจากอดีตภาษาภาษาเซอร์เบียและโครเอเชีย) ภายในชุดไว้ล่วงหน้าของเอกสาร HTML
ไม่ได้เล็กน้อยและไม่มีวิธีที่ง่ายและมีประสิทธิภาพในการกรองพวกเขาออกใน เพื่อที่จะสร้าง "สะอาด" เว็บคลัง
สำหรับที่ต้องการภาษาสลาฟใต้ (ขั้นตอนการระบุภาษามาตรฐานขึ้นอยู่กับตัวกรองคำไม่
ช่วย) เท่าที่เรารู้ว่าภาษาโครเอเชีย WAC ยังคงอยู่ในขั้นตอนการทำความสะอาดสามปีหลังจากการสร้าง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ข้อมูลแนวโน้มใหญ่ในพื้นที่ของการประมวลผลภาษาธรรมชาติ ( NLP ) จะแสดงในการสรุปข้อสังเกตของ
Google ทีมวิจัย ( หน้า 1 , 12 ) ซึ่งสามารถสรุปได้ในหกคำ : คำและภาษา
น้อยกว่าหมายเหตุ ! อย่างไรก็ตาม ระบบ n-gram ขนาดใหญ่ที่มีอยู่ทั่วไปยังคงเป็นสิทธิพิเศษเพียง 11 อินโดยุโรป
languages2,3 , chinese4 และ language5 ญี่ปุ่นในทุกกรณีดับเบิลยูเอ ซี ( เว็บเป็นคลังข้อมูล ) วิธีการเก็บข้อมูล
ใหญ่ถูกใช้ แนวโน้มดับเบิลยูเอ ซีตามสลาฟใต้คำนวณนักภาษาศาสตร์เกินไป ซึ่งได้สร้างขึ้นเมื่อเร็ว ๆนี้
corpora สำหรับ โครเอเชีย สโลเวเนีย และ language6 . ในกรณีนี้เฉพาะ หนึ่งต้องให้
ความใกล้ชิดของภาษาสลาฟใต้ . จำนวนของข้อความที่เขียนในภาษาที่อยู่ใกล้เคียง ( โดยเฉพาะอย่างยิ่งใกล้กับ
แต่ละอื่น ๆ ที่เกิดจากอดีต serbo ภาษาโครเอเชีย ) ในชุดของเอกสารไว้ล่วงหน้า
HTML ไม่เพียงเล็กน้อยและไม่มีวิธีที่ง่ายและมีประสิทธิภาพที่จะกรองออก เพื่อที่จะสร้าง "
คอร์ปัส เว็บสะอาด " เพื่อต้องการภาษาสลาฟใต้ภาษาจำแนกตามมาตรฐานกระบวนการกรองคำ ไม่ได้
ช่วย ) เท่าที่เรารู้ที่ดับเบิลยูเอ ซีโครเอเชียยังอยู่ในกระบวนการซักแห้ง สามปีหลังจากการสร้างของ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.