The main emphasis of previous work

The main emphasis of previous work has been on the compression
of numerical attributes, where coding techniques
have been employed to reduce the length of integers, floating
point numbers, and dates [13, 25]. However, string attributes
(i.e., attributes declared in SQL of type CHAR(n) or
VARCHAR(n)) often comprise a large portion of the length of
a record and thus have significant impact on query performance.
For example, the TPC-H benchmark schema contains
61 attributes, out of which 26 are string-valued, constituting
60% of the total database size. Surprisingly, there has
not been much work in the database literature on compressing
string attributes. Classic compression methods such as
Huffman coding [18], arithmetic coding [31], Lempel-Ziv [32,
33] (the basis for gzip), and order-preserving methods [4]
all have considerable CPU overhead that offsets the performance
gains of reduced I/O, making their use in databases
infeasible [12]. Hence, existing work in the database literature
employs simple, lightweight techniques such as NULL
suppression and dictionary encoding [6, 29]. This paper
contributes such an effective and practical database compression
method for string-valued attributes. Our method
achieves achieves better compression ratios than existing
methods while avoiding high CPU costs during decompression.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เน้นหลักของการทำงานก่อนหน้านี้ได้รวมแอตทริบิวต์ที่เป็นตัวเลข เทคนิคการเขียนโค้ดมีการจ้างงานเพื่อลดความยาวของจำนวนเต็ม น้ำชี้ตัวเลข และวัน [13, 25] อย่างไรก็ตาม สตริแอตทริบิวต์(เช่น แอตทริบิวต์ถูกประกาศใน SQL ชนิด CHAR(n) หรือVARCHAR(n)) มักจะประกอบด้วยส่วนใหญ่ของความยาวของข้อมูล และดังนั้นจึง มีผลกระทบสำคัญต่อประสิทธิภาพการตัวอย่าง แบบแผนมาตรฐานสิ่งทอ-H ประกอบด้วยแอตทริบิวต์ 61 จากที่ 26 เป็นสายอักขระค่า พ.ศ.254260% ของขนาดฐานข้อมูลทั้งหมด จู่ ๆ มีไม่ได้ทำงานมากในวรรณคดีฐานข้อมูลในการบีบอัดแอตทริบิวต์การสตริงการ วิธีบีบอัดคลาสสิกเช่นรหัส [18], Huffman คณิตศาสตร์รหัส [31], Lempel-Ziv [3233] (พื้นฐาน gzip), และวิธีการรักษาใบสั่ง [4]มีโสหุ้ย CPU จำนวนมากที่ชดเชยประสิทธิภาพกำไรของ I/O ลดลง การทำใช้ในฐานข้อมูลถอด [12] ดังนั้น ที่มีอยู่ทำงานในฐานข้อมูลวรรณคดีใช้เทคนิคอย่างง่าย น้ำหนักเบาเช่น NULLปราบปรามและพจนานุกรมเข้า [6, 29] กระดาษนี้สนับสนุนการบีบอัดฐานข้อมูลมีประสิทธิภาพ และการปฏิบัติการดังกล่าววิธีการสำหรับแอตทริบิวต์ค่าสายอักขระ วิธีการของเราได้รับได้รับอัตราส่วนการบีบอัดดีกว่าที่มีอยู่วิธีเลี่ยงต้นทุน CPU สูงในระหว่างการบีบอัด

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

เน้นหลักของการทำงานก่อนหน้านี้ได้รับในการบีบอัดของคุณลักษณะตัวเลขที่เทคนิคการเขียนโปรแกรมได้รับการว่าจ้างเพื่อลดความยาวของจำนวนเต็มลอยหมายเลขจุดและวัน[13, 25] อย่างไรก็ตามแอตทริบิวต์สตริง(เช่นคุณลักษณะประกาศใน SQL ประเภท CHAR (n) หรือVARCHAR (n)) มักจะประกอบด้วยส่วนใหญ่ของความยาวของการบันทึกและทำให้มีผลกระทบต่อประสิทธิภาพการค้นหา. ตัวอย่างเช่น TPC-H เค้าร่างมาตรฐานมี61 คุณลักษณะออกจากที่ 26 มีมูลค่าสตริง constituting 60% ของขนาดฐานข้อมูลรวม น่าแปลกที่มีไม่ได้ทำงานมากในวรรณคดีฐานข้อมูลบนอัดคุณลักษณะสตริง วิธีการบีบอัดคลาสสิกเช่นHuffman การเข้ารหัส [18] คณิตศาสตร์เข้ารหัส [31], Lempel-Ziv [32, 33] (พื้นฐานสำหรับ gzip) และวิธีการเพื่อรักษา [4] ทุกคนมีค่าใช้จ่าย CPU มากที่ชดเชยผลการดำเนินงานกำไรลดลงของ I / O การใช้ของพวกเขาในฐานข้อมูลเป็นไปไม่ได้[12] ดังนั้นการทำงานที่มีอยู่ในวรรณคดีฐานข้อมูลพนักงานง่ายเทคนิคที่มีน้ำหนักเบาเช่นโมฆะการปราบปรามและการเข้ารหัสพจนานุกรม[6, 29] กระดาษนี้จะมีส่วนช่วยในการบีบอัดดังกล่าวเป็นฐานข้อมูลที่มีประสิทธิภาพและการปฏิบัติวิธีการสำหรับแอตทริบิวต์สตริงมูลค่า วิธีการของเราบรรลุประสบความสำเร็จในอัตราส่วนการอัดที่ดีกว่าที่มีอยู่วิธีการหลีกเลี่ยงค่าใช้จ่ายในขณะที่CPU สูงในระหว่างการบีบอัด

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

เน้นหลักของงานก่อนหน้านี้ได้รับการบีบอัด
ลักษณะตัวเลขที่เทคนิคการเข้ารหัส
ได้รับจ้างเพื่อลดความยาวของจำนวนเต็มจำนวนจุดลอยตัว
, และวันที่ 13 [ 25 ] อย่างไรก็ตาม แอตทริบิวต์สตริง
( เช่นคุณลักษณะประกาศใน SQL ชนิด char ( N ) หรือ
VAIO HK ( n ) มักจะประกอบด้วยส่วนใหญ่ของความยาวของ
บันทึกและดังนั้นจึงมีผลกระทบอย่างมากต่อประสิทธิภาพของแบบสอบถาม .
ตัวอย่างเช่น tpc-h มาตรฐานรูปแบบประกอบด้วย
61 คุณลักษณะจากที่ 26 สาย มูลค่ากองทุน
60% ของฐานข้อมูลทั้งหมดขนาด จู่ ๆ มี
ไม่ได้มากทำงานในฐานข้อมูลวรรณกรรมในการบีบอัด
คุณลักษณะข้อความ วิธีการบีบอัดการเข้ารหัส Huffman คลาสสิกเช่น
[ 18 ] , [ 31 ] การเข้ารหัสเลขคณิตlempel ซีฟ [ 32 ]
33 ( พื้นฐานสำหรับ GZIP ) และเพื่อรักษาวิธีการ [ 4 ]
ทั้งหมดมีมากค่าใช้จ่ายใน CPU ที่ชดเชยประสิทธิภาพ
กำไรลด I / O , การใช้ของพวกเขาในฐานข้อมูล
ที่ [ 12 ] ดังนั้น ที่มีอยู่ในฐานข้อมูลวรรณกรรม
ใช้เทคนิคง่าย ๆ เบา เช่น ในการปราบปรามและพจนานุกรม
6 การเข้ารหัส [ 29 ]
กระดาษนี้การคาดการณ์ดังกล่าวมีประสิทธิภาพและวิธีการบีบอัดฐานข้อมูลในทางปฏิบัติสำหรับสตริง
มูลค่าแอตทริบิวต์ วิธีการบรรลุบรรลุอัตราส่วนการบีบอัดที่ดีกว่า

กว่าวิธีที่มีอยู่ในขณะที่หลีกเลี่ยงค่าใช้จ่าย CPU สูงในการบีบอัด .

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.