ผมเคยเขียนบทความเรื่อง ความเข้าใจผิดบางประการเกี่ยวกับ Coud Computing มาระยะหลังผมได้ศึกษาเรื่อง Big Data มากขึ้น มีโอกาสได้ไปบรรยายและให้คำปรึกษาเกี่ยวกับเรื่องนี้ในหลายๆที่ ก็เลยพบว่าหลายๆคนมีความเข้าใจคาดเคลื่อนเกี่ยวกับ Big Data เช่นเดียวกัน วันนี้จึงขอรวบรวมมาสรุปความเข้าใจผิดบางประการเกี่ยวกับ Big Data ดังนี้
- Big Data คือข้อมูลขนาดใหญ่ หลายๆคนแปลคำว่า Big Data แบบตรงตัวแล้วสรุปเอาตรงเลยว่า Big Data ก็คือข้อมูลที่มีขนาดใหญ่ ซึ่งจริงๆแล้วก็มีส่วนถูกอยู่บ้าง แต่ความหมายของ Big Data ประกอบด้วย 3 องค์ประกอบคือ Volume ข้อมูลมีขนาดใหญ่ Velocity ข้อมูลเปลี่ยนแปลงไปอย่างรวดเร็ว และ Variety ข้อมูลมีหลากหลายรูปแบบทั้ง structure และ unstructure จากองค์ประกอบทั้งสามนี้ทำให้เราไม่สามารถที่จะใช้วิธีการจัดการข้อมูลในปัจจุบันมาใช้ได้ หากต้องการได้ประโยชน์จาก Big Data อย่างแท้จริง
- Big Data สามารถบริหารจัดการได้โดยใช้ฐานข้อมูล RDBMS แบบเดิม จริงๆแล้วเวลาเราพูดถึง Big Data ข้อมูลจะมีขนาดใหญ่มากหลายร้อย TeraByte หรืออาจเป็น PetaByte และก็มีทั้งแบบ Structure หรือ unstructure ทำให้เราจำเป็นต้องปรับปรุงโครงสร้างเทคโนโลยีด้านข้อมูล (Information Infrastructure) โดยนำเทคโนโลยีใหม่เช่น NoSQL, NewSQL หรือ Hadoop เข้ามาใช้ ตัวอย่างเช่นทุกวันนี้บริษัทผู้ให้บริการมือถือที่ต้องเก็บ CDR (Call Detail Record) ที่มีข้อมูลหลาย TB ต่อวันทำให้ไม่สามารถเก็บไว้ใน RDBMS ได้ในระยะเวลานานได้ จึงต้องมีการนำเทคโนโลยีอย่าง Hadoop มาเพื่อให้สามารถเก็บข้อมูลได้นานขึ้น และนำข้อมูลระยะยาวมาวิเคราะห์ได้
- Hadoop คือเครื่องมือในการทำ Big Data ข้อเท็จจริงคือว่า Big Data จะต้องมีการบริหารข้อมูลขนาดใหญ่ในหลายรูปแบบ Hadoop ก็เป็นเพียงเครื่องมือหนึ่งที่น่าสนใจถ้าต้องการเก็บ unstructure data ขนาดใหญ่ที่เก็บข้อมูลได้เป็น PetaByte และสามารถที่จะใช้ร่วมกับ RDBMS และ EDW (Enterprise Data Warehouse) นอกจากต้นทุนในการเก็บข้อมูลจะต่ำกว่ามากดังแสดงในรูปที่ 1 ทำให้ Hadoop เป็นเทคโนโลยีืที่น่าสนใจมากถ้าเราต้องการทำ Big Data แต่ Hadoop ก็จะไม่ได้มาแทนที่เทคโนโลยีการเก็บข้อมูลแบบเดิมเช่น RDBMS และ EDW
รูปที่ 1 ราคาเปรียบการเก็บข้อมูลต่อ TB โดยใช้เทคโนโลยีต่าง [Source: Monetizing Big Data at Telecom Service Providers]
- Strucure Data ในองค์กรเพียงพอต่อการทำ Big Data ข้อมูลในปัจจบันมีแนวโน้มที่จะเป็น unstructure data มากกว่า structure data โดยมีการประมาณการว่า 85% ของข้อมูลทั้งหมดคือ unstructure data ที่อาจเป็นข้อมูลที่เป็น text, รูปภาพ, อีเมล์, social media หรือ semistructure data อย่าง JSON และ XML ดังนั้นหากองค์กรต้องการจะได้ประโยชน์จาก Big Data ก็ต้องมีการนำ unstructure data มาใช้ และอาจต้องให้ความสำคัญข้อมูลภายนอกองค์กรพอๆกับข้อมูลที่เก็บไว้ในองค์กร
- Big Data คือการนำข้อมูลมาเก็บและแสดงผลแบบ BI จริงๆแล้วคุณค่าของการทำ Big Data คือการนำข้อมูลจำนวนมหาศาลมาวิเคราะห์คาดการณ์อนาคต (predictive analytics) ที่ไม่ใช่เพียงแค่การทำ static report ที่เป็นการนำข้อมูลในอดีตมาประมวลผลและสรุปในมิติต่างๆที่เราจะเน้นในการทำ Business Intelligence
- Data Scientist ก็คือ Business Analyst งานสองอาชีพนี้แตกต่างกันมากเพราะ Data Scientist คือผู้ที่จะนำข้อมูลมาทำ Predictive Analytics จึงต้องมีความรู้ด้านคณิตศาสตร์ที่เป็นโมเดลคณิตศาสตร์ในการวิเคราะห์อัลกอริทึม มีความรู้ด้านการพัฒนาโปรแกรม และมีความรู้ในธุรกิจที่จะวิเคราะห์ข้อมูล ขณะที่ Business Analyst อาจเป็นนักสถิติหรือทีมงานที่สามารถนำข้อมูลในอดีตมาประมวลผลในหลายมิติ แล้วสามารถทำเป็นรายงาน หรือรูปภาพกราฟฟิกต่างๆได้
- Predictive Analytics ต้องทำกับ BigData เท่านั้น จริงๆแลัวการทำ Predictive Analytics สามารถจะใช้กับข้อมูลใดๆก็ได้ และเป็นการเน้นเรื่องของ Algorithm ที่มาคาดการณ์ในด้านต่างๆ แต่การมีข้อมูลในการมาวิเคราะห์ที่มีขนาดใหญ่ก็จะมีคาดแม่นย้ำในการคาดการณ์ที่ดีขึ้น เหมือนระบบ e-commerce ที่เมื่อมีจำนวนลูกค้ามาซื้อสินค้ามากขึ้นก็สามารถที่จะดูพฤติกรรมการซื้อของกลุ่มคนที่ใกล้เคียงกันได้ และสามารถแนะนำสินค้าที่น่าจtซื้อต่อไป (Next Thing to Buy) ได้ดียิ่งขึ้น
- Hadoop เป็นเรื่องยากจะต้องเขียนโปรแกรมภาษาจาวาในการประมวลผลและทำงานแบบ Batch เท่านั้น เรื่องนี้อาจถูกต้องถ้ากล่าวถึง Hadoop 1.0 แต่ก็มีการพัฒนาภาษาคล้าย SQL อย่าง Hive QL, Impala มาทำให้ประมวลผลได้ง่ายขึ้นโดยไม่ต้องเขียนโปรแกรม และถ้าพูดถึงเวอร์ชั่น 2.x ในปัจจุบัน Hadoop ได้พัฒนาไปมาก ทำให้เราสามารถที่จะประมวลผลแบบ Realtime หรือใช้โปรแกรมภาษาอย่างอื่นเช่น Python มาช่วยประมวลผลได้
ธนชาติ นุ่มนนท์
IMC Institute
พฤศจิกายน 2557