ความเข้าใจผิดบางประการเกี่ยวกับ Big Data

Screenshot 2014-11-17 16.42.33

ผมเคยเขียนบทความเรื่อง ความเข้าใจผิดบางประการเกี่ยวกับ Coud Computing มาระยะหลังผมได้ศึกษาเรื่อง Big Data มากขึ้น มีโอกาสได้ไปบรรยายและให้คำปรึกษาเกี่ยวกับเรื่องนี้ในหลายๆที่ ก็เลยพบว่าหลายๆคนมีความเข้าใจคาดเคลื่อนเกี่ยวกับ Big Data เช่นเดียวกัน วันนี้จึงขอรวบรวมมาสรุปความเข้าใจผิดบางประการเกี่ยวกับ Big Data ดังนี้

  • Big Data คือข้อมูลขนาดใหญ่ หลายๆคนแปลคำว่า Big Data แบบตรงตัวแล้วสรุปเอาตรงเลยว่า Big Data ก็คือข้อมูลที่มีขนาดใหญ่ ซึ่งจริงๆแล้วก็มีส่วนถูกอยู่บ้าง แต่ความหมายของ Big Data ประกอบด้วย 3 องค์ประกอบคือ Volume ข้อมูลมีขนาดใหญ่ Velocity ข้อมูลเปลี่ยนแปลงไปอย่างรวดเร็ว และ Variety ข้อมูลมีหลากหลายรูปแบบทั้ง structure และ unstructure จากองค์ประกอบทั้งสามนี้ทำให้เราไม่สามารถที่จะใช้วิธีการจัดการข้อมูลในปัจจุบันมาใช้ได้ หากต้องการได้ประโยชน์จาก Big Data อย่างแท้จริง
  • Big Data สามารถบริหารจัดการได้โดยใช้ฐานข้อมูล RDBMS แบบเดิม จริงๆแล้วเวลาเราพูดถึง Big Data ข้อมูลจะมีขนาดใหญ่มากหลายร้อย TeraByte หรืออาจเป็น PetaByte  และก็มีทั้งแบบ Structure หรือ unstructure ทำให้เราจำเป็นต้องปรับปรุงโครงสร้างเทคโนโลยีด้านข้อมูล (Information Infrastructure) โดยนำเทคโนโลยีใหม่เช่น NoSQL, NewSQL หรือ Hadoop เข้ามาใช้ ตัวอย่างเช่นทุกวันนี้บริษัทผู้ให้บริการมือถือที่ต้องเก็บ CDR (Call Detail Record) ที่มีข้อมูลหลาย TB ต่อวันทำให้ไม่สามารถเก็บไว้ใน RDBMS ได้ในระยะเวลานานได้ จึงต้องมีการนำเทคโนโลยีอย่าง Hadoop มาเพื่อให้สามารถเก็บข้อมูลได้นานขึ้น และนำข้อมูลระยะยาวมาวิเคราะห์ได้
  • Hadoop คือเครื่องมือในการทำ Big Data ข้อเท็จจริงคือว่า Big Data จะต้องมีการบริหารข้อมูลขนาดใหญ่ในหลายรูปแบบ Hadoop ก็เป็นเพียงเครื่องมือหนึ่งที่น่าสนใจถ้าต้องการเก็บ unstructure data ขนาดใหญ่ที่เก็บข้อมูลได้เป็น PetaByte และสามารถที่จะใช้ร่วมกับ RDBMS และ EDW (Enterprise Data Warehouse) นอกจากต้นทุนในการเก็บข้อมูลจะต่ำกว่ามากดังแสดงในรูปที่ 1  ทำให้ Hadoop เป็นเทคโนโลยีืที่น่าสนใจมากถ้าเราต้องการทำ Big Data แต่ Hadoop ก็จะไม่ได้มาแทนที่เทคโนโลยีการเก็บข้อมูลแบบเดิมเช่น RDBMS และ EDW

Screenshot 2014-11-17 16.27.33

รูปที่ 1 ราคาเปรียบการเก็บข้อมูลต่อ TB โดยใช้เทคโนโลยีต่าง [Source: Monetizing Big Data at Telecom Service Providers]

  • Strucure Data ในองค์กรเพียงพอต่อการทำ Big Data ข้อมูลในปัจจบันมีแนวโน้มที่จะเป็น unstructure data มากกว่า structure data โดยมีการประมาณการว่า 85% ของข้อมูลทั้งหมดคือ unstructure data ที่อาจเป็นข้อมูลที่เป็น text, รูปภาพ, อีเมล์, social media หรือ semistructure data อย่าง JSON และ XML ดังนั้นหากองค์กรต้องการจะได้ประโยชน์จาก Big Data ก็ต้องมีการนำ unstructure data มาใช้ และอาจต้องให้ความสำคัญข้อมูลภายนอกองค์กรพอๆกับข้อมูลที่เก็บไว้ในองค์กร
  • Big Data คือการนำข้อมูลมาเก็บและแสดงผลแบบ BI  จริงๆแล้วคุณค่าของการทำ Big Data คือการนำข้อมูลจำนวนมหาศาลมาวิเคราะห์คาดการณ์อนาคต (predictive analytics)  ที่ไม่ใช่เพียงแค่การทำ static report ที่เป็นการนำข้อมูลในอดีตมาประมวลผลและสรุปในมิติต่างๆที่เราจะเน้นในการทำ Business Intelligence
  • Data Scientist ก็คือ Business Analyst งานสองอาชีพนี้แตกต่างกันมากเพราะ Data Scientist คือผู้ที่จะนำข้อมูลมาทำ Predictive Analytics จึงต้องมีความรู้ด้านคณิตศาสตร์ที่เป็นโมเดลคณิตศาสตร์ในการวิเคราะห์อัลกอริทึม มีความรู้ด้านการพัฒนาโปรแกรม และมีความรู้ในธุรกิจที่จะวิเคราะห์ข้อมูล ขณะที่ Business Analyst อาจเป็นนักสถิติหรือทีมงานที่สามารถนำข้อมูลในอดีตมาประมวลผลในหลายมิติ แล้วสามารถทำเป็นรายงาน หรือรูปภาพกราฟฟิกต่างๆได้
  • Predictive Analytics ต้องทำกับ BigData เท่านั้น จริงๆแลัวการทำ Predictive Analytics สามารถจะใช้กับข้อมูลใดๆก็ได้ และเป็นการเน้นเรื่องของ Algorithm ที่มาคาดการณ์ในด้านต่างๆ แต่การมีข้อมูลในการมาวิเคราะห์ที่มีขนาดใหญ่ก็จะมีคาดแม่นย้ำในการคาดการณ์ที่ดีขึ้น เหมือนระบบ e-commerce ที่เมื่อมีจำนวนลูกค้ามาซื้อสินค้ามากขึ้นก็สามารถที่จะดูพฤติกรรมการซื้อของกลุ่มคนที่ใกล้เคียงกันได้ และสามารถแนะนำสินค้าที่น่าจtซื้อต่อไป (Next Thing to Buy) ได้ดียิ่งขึ้น
  • Hadoop เป็นเรื่องยากจะต้องเขียนโปรแกรมภาษาจาวาในการประมวลผลและทำงานแบบ Batch เท่านั้น เรื่องนี้อาจถูกต้องถ้ากล่าวถึง  Hadoop 1.0 แต่ก็มีการพัฒนาภาษาคล้าย SQL อย่าง Hive QL, Impala มาทำให้ประมวลผลได้ง่ายขึ้นโดยไม่ต้องเขียนโปรแกรม และถ้าพูดถึงเวอร์ชั่น 2.x ในปัจจุบัน  Hadoop ได้พัฒนาไปมาก ทำให้เราสามารถที่จะประมวลผลแบบ Realtime หรือใช้โปรแกรมภาษาอย่างอื่นเช่น Python มาช่วยประมวลผลได้

ธนชาติ นุ่มนนท์

IMC Institute

Advertisements

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s