3. Big data managementBasically, da

3. Big data management
Basically, data processing is seen as the gathering, processing,
management of data for producing “new” information for
end users [3]. Over time, key challenges are related to storage,
transportation and processing of high throughput data. It is
different from Big Data challenges to which we have to add
ambiguity, uncertainty and variety [3]. Consequently, these requirements
imply an additional step where data are cleaned,
tagged, classified and formatted [3,14]. Karmasphere5 currently
splits Big Data analysis into four steps: Acquisition or
Access, Assembly or Organization, Analyze and Action or Decision.
Thus, these steps are mentioned as the “4 A’s”. The Computing
Community Consortium [14] similarly to [3], divides the organization
step into an Extraction/Cleaning step and an Integration
step.
3 http://www.gartner.com/newsroom/id/1731916.
4 http://www.emc.com/collateral/analyst-reports/idcextracting-value-from-chaos-ar.pdf.
5 http://www.reuters.com/article/2011/09/21/idUS132142+21-
Sep-2011+BW20110921.
Acquisition. Big Data architecture has to acquire high
speed data from a variety of sources (web, DBMS(OLTP),
NoSQL, HDFS) and has to deal with diverse access protocols. It
is where a filter could be established to store only data which
could be helpful or “raw” data with a lower degree of uncertainty
[14]. In some applications, the conditions of generation
of data are important, thus it could be interesting for further
analysis to capture these metadata and store them with the
corresponding data [14].
Organization. At this point the architecture has to deal
with various data formats (texts formats, compressed files,
variously delimited, etc.) and must be able to parse them and
extract the actual information like named entities, relation
between them, etc. [14]. Also this is the point where data
have to be clean, put in a computable mode, structured or
semi-structured, integrated and stored in the right location
(existing data warehouse, data marts, Operational Data Store,
Complex Event Processing engine, NoSQL database) [14].
Thus, a kind of ETL (extract, transform, load) had to be
done. Successful cleaning in Big Data architecture is not
entirely guaranteed; in fact “the volume, velocity, variety, and
variability of Big Data may preclude us from taking the time
to cleanse it all thoroughly”.6
Analyze. Here we have running queries, modeling, and
building algorithms to find new insights. Mining requires integrated,
cleaned, trustworthy data; at the same time, data
mining itself can also be used to help improve the quality and
trustworthiness of the data, understand its semantics, and
provide intelligent querying functions [14]. Decision. Being
able to take valuable decisions means to be able to efficiently
interpret results from analysis. Consequently it is very important
for the user to “understand and verify” outputs [14].
Furthermore, provenance of the data (supplementary information
that explains how each result was derived) should be provided
to help the user to understand what he obtains.
If we can easily see how volume, velocity, veracity and variety
influence the pipeline of Big Data architecture, there is
another important aspect in data to handle in Big Data Architecture:
privacy. R. Hillard7 considers it to be very important
that privacy appears in a good place in his definition of
Big Data. Privacy can cause problems at the creation of data
(someone who wants to hide some piece of information), at
the analysis on data [1] because if we want to aggregate data or
to correlate it we could have to access private data; and privacy
can also cause inconsistencies at the purging of database.
Indeed if we delete all individuals data we can get incoherences
with aggregate data.
To sum up handle Big Data implies having an infrastructure
linear scalable, able to handle high throughput multi-formatted
data, fault tolerant, auto recoverable, with a high degree of
parallelism and a distributed data processing [3]. It is important
to note that, in this management, integrating data (i.e
“access, parse, normalize, standardize, integrate, cleanse,
extract, match, classify, mask, and deliver data.” [4, chap. 21])
represents 80% of a Big Data project. This aspect is deeply
discussed in Section 3.3.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

3. ข้อมูลการจัดการโดยทั่วไป ประมวลผลข้อมูลจึงเป็นการรวบรวม ประมวลผลการจัดการข้อมูลการผลิตข้อมูล "ใหม่"ผู้ [3] เวลา ความท้าทายเกี่ยวข้องกับเก็บขนส่งและประมวลข้อมูลอัตราความเร็วสูง มันเป็นแตกต่างจากข้อมูลขนาดใหญ่ความท้าทายที่เราต้องการเพิ่มคลุมเครือ ความไม่แน่นอน และหลาย [3] ดังนั้น ข้อกำหนดเหล่านี้หมายความว่าขั้นตอนเพิ่มเติมซึ่งจะรักษาข้อมูลติดแท็ก จัด และจัดรูปแบบ [3,14] Karmasphere5 ในปัจจุบันแยกวิเคราะห์ข้อมูลเป็นขั้นตอนที่สี่: ซื้อ หรือเข้า แอสเซมบลีหรือองค์กร วิเคราะห์ และดำเนินการหรือตัดสินใจดังนั้น ดังกล่าวถึงเป็น "4 ของ A" การใช้งานชุมชนองค์กร [14] ในทำนองเดียวกัน [3], แบ่งองค์กรเป็นขั้นตอนการสกัด/ซักและการบูรณาการขั้นตอนการ3 http://www.gartner.com/newsroom/id/17319164 http://www.emc.com/collateral/analyst-reports/idcextracting-value-from-chaos-ar.pdf5 http://www.reuters.com/article/2011/09/21/idUS132142+21-ก.ย.-2011 + BW20110921ซื้อ สถาปัตยกรรมข้อมูลขนาดใหญ่ที่มีการซื้อสูงความเร็วข้อมูลจากหลากหลายแหล่ง (เว็บ DBMS(OLTP)NoSQL, HDFS) และมีการจัดการกับโพรโทคอลการเข้าถึงที่หลากหลาย มันคือการที่สามารถสร้างตัวกรองการจัดเก็บเฉพาะข้อมูลที่อาจเป็นข้อมูลที่เป็นประโยชน์ หรือ "ดิบ" กับความไม่แน่นอนในระดับต่ำกว่า[14] ในโปรแกรมประยุกต์บางโปรแกรม เงื่อนไขของรุ่นข้อมูลมีความสำคัญ ดังนั้น มันอาจจะน่าสนใจสำหรับข้อมูลเพิ่มเติมวิเคราะห์การจับข้อมูลเมตานี้ และเก็บไว้กับตัวข้อมูลเกี่ยวข้อง [14]องค์กร จุดนี้ สถาปัตยกรรมมีการจัดการมีรูปแบบข้อมูลต่าง ๆ (รูปแบบข้อความ ไฟล์บีบอัดเพิ่มตัวคั่น ฯลฯ) และต้องสามารถแยกได้ และสารสกัดจากข้อมูลจริงเช่นชื่อหน่วยงาน ความสัมพันธ์ระหว่าง ฯลฯ [14] นอกจากนี้ นี่คือจุดที่ข้อมูลมีการทำความสะอาด ใส่ในโหมด computable โครงสร้าง หรือกึ่งโครงสร้าง รวม และเก็บไว้ในตำแหน่งที่ถูกต้อง(ที่มีอยู่ข้อมูลสินค้า ข้อมูลดุล ปฏิบัติการเก็บข้อมูลประมวลผลเหตุการณ์ที่ซับซ้อน NoSQL ฐาน) [14]ดังนั้น ชนิดของ ETL (สารสกัด แปลง โหลด) ต้องมีเสร็จแล้ว ทำความสะอาดประสบความสำเร็จในข้อมูลไม่ได้รับประกันทั้งหมด ในความเป็นจริง "เสียง ความเร็ว ความ หลากหลาย และความแปรปรวนของข้อมูลอาจได้ห้ามเราทำเวลาทำความสะอาดได้ทุกอย่าง ".6วิเคราะห์ ที่นี่เรามีการเรียกใช้แบบสอบถาม แบบจำลอง และสร้างอัลกอริทึมการค้นหาข้อมูลเชิงลึกของใหม่ การทำเหมืองแร่ต้องรวมทำความสะอาด น่าเชื่อถือของข้อมูล ในเวลาเดียวกัน ข้อมูลเหมืองแร่เองยังสามารถใช้เพื่อช่วยปรับปรุงคุณภาพ และความน่าเชื่อถือของข้อมูล เข้าใจความหมายของมัน และให้ฟังก์ชันการสอบถามอัจฉริยะ [14] การตัดสินใจ ถูกได้ตัดสินใจที่มีค่าหมายถึงความสามารถได้อย่างมีประสิทธิภาพแปลผลจากการวิเคราะห์ จึง เป็นสิ่งที่สำคัญสำหรับผู้ใช้ "เข้าใจ และตรวจสอบ" ผล [14]นอกจากนี้ provenance ของข้อมูล (ข้อมูลเสริมที่อธิบายวิธีได้มาแต่ละผล) ควรจะให้ช่วยให้ผู้ใช้เข้าใจสิ่งที่เขาได้รับถ้าเราสามารถเห็นได้ว่าปริมาณ ความเร็ว จริง และความหลากหลายมีอิทธิพลต่อขั้นตอนของสถาปัตยกรรมข้อมูลขนาดใหญ่ มีอีกเรื่องที่สำคัญในข้อมูลในสถาปัตยกรรมข้อมูลใหญ่:เป็นส่วนตัว R. Hillard7 พิจารณาเป็นสำคัญส่วนที่ปรากฏในสถานที่ดีในนิยามของเขาข้อมูลขนาดใหญ่ ความเป็นส่วนตัวทำให้เกิดปัญหาในการสร้างข้อมูล(คนที่ต้องการซ่อนของข้อมูล), ที่การวิเคราะห์ข้อมูล [1] เนื่องจากหากเราต้องการรวมข้อมูล หรือการเชื่อมโยงนั้นเราอาจเข้าถึงข้อมูลส่วนตัว ความเป็นส่วนตัวทำให้เกิดความไม่สอดคล้องที่ล้างข้อมูลของฐานข้อมูลแน่นอนถ้าเราลบข้อมูลบุคคลทั้งหมด เราจะได้รับ incoherencesด้วยข้อมูลรวมรวมการจัดการ ข้อมูลขนาดใหญ่หมายถึงมีโครงสร้างพื้นฐานเชิงเส้นปรับขนาดได้ สามารถรองรับอัตราความเร็วสูงหลายรูปแบบข้อมูล อดทน ข้อบกพร่องรถยนต์คืน กับระดับสูงของขนานและประมวลผลข้อมูลแบบกระจาย [3] มันเป็นสิ่งสำคัญหมายเหตุที่ ในการจัดการนี้ การรวมข้อมูล (เช่น"เข้าถึง แยก ปกติ มาตรฐาน รวม ทำความ สะอาดแยก ตรง จัด ประเภท หน้ากาก และส่งข้อมูล" [4, chap. 21])ถึง 80% ของโครงการข้อมูลขนาดใหญ่ ด้านนี้เป็นอย่างมากกล่าวถึงในส่วนที่ 3.3

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

3. การจัดการข้อมูลขนาดใหญ่
โดยทั่วไปการประมวลผลข้อมูลถูกมองว่าเป็นการรวบรวมการประมวลผล
การจัดการข้อมูลการผลิตข้อมูล "ใหม่" สำหรับ
ผู้ใช้ที่สิ้นสุด [3] เมื่อเวลาผ่านไปความท้าทายที่สำคัญที่เกี่ยวข้องกับการจัดเก็บ
การขนส่งและการประมวลผลของการรับส่งข้อมูลสูง มันเป็นความ
แตกต่างจากความท้าทายข้อมูลขนาดใหญ่ที่เราต้องเพิ่ม
ความคลุมเครือไม่แน่นอนและความหลากหลาย [3] ดังนั้นความต้องการเหล่านี้
บ่งบอกถึงขั้นตอนเพิ่มเติมที่ข้อมูลจะทำความสะอาด
แท็กจำแนกและจัดรูปแบบ [3,14] Karmasphere5 ปัจจุบัน
แยกการวิเคราะห์ข้อมูลขนาดใหญ่เป็นสี่ขั้นตอนการซื้อหรือ
การเข้าถึงสภาหรือองค์กรการวิเคราะห์และการดำเนินการหรือการตัดสินใจ.
ดังนั้นขั้นตอนเหล่านี้จะกล่าวถึงในฐานะ "4 ของ" คอมพิวเตอร์
ชุมชน Consortium [14] ในทำนองเดียวกันกับ [3] แบ่งองค์กร
ก้าวเข้าสู่สกัด / ทำความสะอาดขั้นตอนและบูรณาการ
ขั้นตอน.
3 http://www.gartner.com/newsroom/id/1731916.
4 http: // www.emc.com/collateral/analyst-reports/idcextracting-value-from-chaos-ar.pdf.
5 http://www.reuters.com/article/2011/09/21/idUS132142+21-
ก.ย. 2011 + BW20110921.
การได้มาซึ่ง สถาปัตยกรรมข้อมูลขนาดใหญ่มีสูงที่จะได้รับ
ข้อมูลความเร็วจากความหลากหลายของแหล่งที่มาของเว็บ (DBMS (OLTP)
NoSQL, HDFS) และมีการจัดการกับโปรโตคอลการเข้าถึงความหลากหลาย มัน
เป็นที่ที่ตัวกรองจะได้รับการจัดตั้งขึ้นเพื่อเก็บข้อมูลเท่านั้นซึ่ง
อาจจะเป็นประโยชน์หรือข้อมูล "ดิบ" ที่มีระดับต่ำของความไม่แน่นอน
[14] ในการใช้งานบางเงื่อนไขของรุ่น
ของข้อมูลที่มีความสำคัญดังนั้นมันอาจจะเป็นที่น่าสนใจต่อการ
วิเคราะห์ในการจับภาพเมตาดาต้าเหล่านี้และเก็บไว้กับ
ข้อมูลที่ตรงกัน [14].
องค์การ ณ จุดนี้สถาปัตยกรรมมีการจัดการ
กับรูปแบบต่างๆข้อมูล (รูปแบบข้อความ, ไฟล์บีบอัด,
ที่คั่นนานัปการ, ฯลฯ ) และจะต้องสามารถที่จะแยกพวกเขาและ
ดึงข้อมูลจริงเช่นหน่วยงานที่ชื่อความสัมพันธ์
ระหว่างพวกเขาและอื่น ๆ [14] . นอกจากนี้ยังเป็นจุดที่ข้อมูล
จะต้องมีการทำความสะอาดใส่ในโหมดการคำนวณโครงสร้างหรือ
กึ่งโครงสร้างแบบบูรณาการและเก็บไว้ในสถานที่ที่เหมาะสม
(คลังข้อมูลที่มีอยู่ marts ข้อมูล, ร้านข้อมูลการดำเนินงาน,
การประมวลผลเหตุการณ์คอมเพล็กซ์ฐานข้อมูล NoSQL ) [14].
ดังนั้นชนิดของ ETL A (สารสกัดจากแปลงโหลด) จะต้องมีการ
ทำ การทำความสะอาดที่ประสบความสำเร็จในงานสถาปัตยกรรมข้อมูลขนาดใหญ่ไม่ได้
รับประกันทั้งหมด; ในความเป็นจริง "ไดรฟ์ความเร็วหลากหลายและ
ความแปรปรวนของข้อมูลขนาดใหญ่อาจดักคอเราจากการสละเวลา
ในการทำความสะอาดมันทั้งหมดได้อย่างทั่วถึง" 0.6
วิเคราะห์ ที่นี่เราได้ทำงานแบบสอบถามการสร้างแบบจำลองและ
ขั้นตอนวิธีการสร้างเพื่อหาข้อมูลเชิงลึกใหม่ การทำเหมืองแร่ต้องบูรณาการ
ทำความสะอาดข้อมูลที่น่าเชื่อถือ; ในเวลาเดียวกันข้อมูล
การทำเหมืองแร่ของตัวเองนอกจากนี้ยังสามารถใช้เพื่อช่วยปรับปรุงคุณภาพและ
ความน่าเชื่อถือของข้อมูลที่เข้าใจความหมายของตนและ
ให้ฟังก์ชั่นการสอบถามอัจฉริยะ [14] การตัดสิน เป็น
ความสามารถในการตัดสินใจที่มีคุณค่าหมายความว่าจะสามารถได้อย่างมีประสิทธิภาพ
แปลผลจากการวิเคราะห์ เพราะฉะนั้นมันก็เป็นสิ่งสำคัญมาก
สำหรับผู้ใช้ "เข้าใจและตรวจสอบ" เอาท์พุท [14].
นอกจากนี้ที่มาของข้อมูล (ข้อมูลเพิ่มเติม
ที่อธิบายถึงวิธีการที่แต่ละผลที่ได้มา) ควรจะให้
เพื่อช่วยให้ผู้ใช้สามารถเข้าใจสิ่งที่เขาได้รับ.
หาก เราสามารถดูว่าปริมาณความเร็วความจริงและความหลากหลาย
ที่มีอิทธิพลต่อท่อของสถาปัตยกรรมข้อมูลขนาดใหญ่ที่มีความ
สำคัญอีกอย่างหนึ่งในข้อมูลที่จะจัดการในสถาปัตยกรรมข้อมูลของบิ๊ก:
ความเป็นส่วนตัว อาร์ Hillard7 เห็นว่ามันจะมีความสำคัญมาก
ว่าข้อมูลส่วนบุคคลที่ปรากฏอยู่ในสถานที่ที่ดีในความหมายของเขา
ข้อมูลขนาดใหญ่ ความเป็นส่วนตัวอาจทำให้เกิดปัญหาในการสร้างข้อมูล
(คนที่ต้องการที่จะซ่อนชิ้นส่วนของข้อมูลบางส่วน) ใน
การวิเคราะห์เกี่ยวกับข้อมูล [1] เพราะถ้าเราต้องการที่จะรวบรวมข้อมูลหรือ
ความสัมพันธ์มันเราจะได้มีการเข้าถึงข้อมูลส่วนตัว และความเป็นส่วนตัว
ยังสามารถทำให้เกิดความไม่สอดคล้องกันในการกวาดล้างของฐานข้อมูล.
อันที่จริงถ้าเราลบข้อมูลบุคคลทั้งหมดที่เราสามารถได้รับ incoherences
กับข้อมูลโดยรวม.
เพื่อสรุปผลการจัดการข้อมูลขนาดใหญ่หมายถึงการมีโครงสร้างพื้นฐาน
เชิงเส้นสามารถปรับขนาดได้สามารถจัดการกับอัตราความเร็วสูงหลายรูปแบบ
ข้อมูล ทนความผิดอัตโนมัติคืนที่มีระดับสูงของ
ความเท่าเทียมและการประมวลผลข้อมูลกระจาย [3] มันเป็นสิ่งสำคัญ
ที่จะทราบว่าในการจัดการนี้การบูรณาการข้อมูล (เช่น
"การเข้าถึงแยกปกติมาตรฐานบูรณาการทำความสะอาด,
สารสกัด, การแข่งขัน, การจำแนกหน้ากากและส่งข้อมูล." [4 CHAP. 21])
แสดงให้เห็นถึง 80% ของโครงการข้อมูลขนาดใหญ่ ด้านนี้เป็นอย่างล้ำลึก
ที่กล่าวไว้ในมาตรา 3.3

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.