ผมได้เคยเรื่องของสถาปัตยกรรมด้าน Big Data มาหลายตอน แล้วชี้ให้เห็นในปัจจุบันการทำโครงการ Big Data จะเน้นการทำ Data Lake และมุ่งไปสู่การใช้ Public Cloud Services มากขึ้น แต่ในช่วงที่ผ่านมาก็มีการพัฒนาเทคโนโลยีใหม่ๆมากขึ้น มีปริมาณมากข้อมูลมาก และผู้ให้บริการ Public Cloud ก็พัฒนาบริการใหม่ๆมากขึ้น จึงทำให้แนวโน้มในด้านสถาปัตยกรรม Big Data มีการเปลี่ยนแปลงไปและคาดการณ์ว่าในปี 2022 จะมีแนวโน้มที่สำคัญดังนี้

1. Data Lake house จะทำให้การบริหารจัดการ Big Data ทำได้ดีขึ้น จากที่กล่าวไว้ว่าการเก็บข้อมูลของ Big Data จะมีอยู่สองแนวทางคือ Data Warehouse และ Data Lake ซึ่งข้อมูลที่เก็บใน Data Warehouse ส่วนใหญ่จะเป็นข้อมูลในรูปแบบเดิมที่เป็น Structure data และมีข้อจำกัดในเรื่องขนาดของข้อมูล องค์กรต่างๆจึงหันมาใช้ Data Lake ในการเก็บข้อมูลมากขึ้น เพราะสามารถเก็บข้อมูลได้หลากหลาย และเก็บข้อมูลปริมาณมหาศาลได้ดีกว่า

แต่ข้อมูลที่เก็บใน Data Lake ที่มักเป็นข้อมูลดิบ จะขาดการ cleansing ที่ดีทำให้ข้อมูลไม่มีคุณภาพ และขาดการจัดระเบียบที่ดีพอ ทำให้การค้นหาหรือการทำธรรมาภิบาลของใน Data Lake ค่อนข้างจะยากกว่าการใช้ Data Warehouse ดังนั้นจึงมีการพูดถึงการจัดเก็บข้อมูลใน Data Lake ที่มีระเบียบและมีมาตรฐานโดกยเฉพาะข้อมูลประเภท Structure data และ Semi structure data อย่าง Data Lakehouse ของ Databrick ที่น่าจะมาแทนที่ Data Lake แบบเดิมๆ

2. การวิเคราะห์ข้อมูลจะใช้ Citizened Data scientist มากขึ้น แต่ก่อนการวิเคราะห์ข้อมูลแบบ Predictive analytics จะต้องพึ่งนักวิทยาการข้อมูล (Data scientist) ที่ต้องมีความเก่งด้านอัลกอริทึมและการเขียนโปรแกรมเป็นอย่างดี แต่ก็มักจะเจอปัญหาที่นักวิทยาการข้อมูลอาจขาดมุมมองทางด้านธุรกิจและอุตสาหกรรมที่ต้องการวิเคราะห์ ทำให้วืเคราะห์ออกมาได้ไมาดีเท่ากับคนที่มี domain expert

แต่ในปัจจุบันมีเทคโนโลยีที่เป็น AutoML ซึ่งเป็นการทำ Data Science โดยไม่ต้องเขียนโปรแกรม (No-code) เช่น Google AutoML หรือ Amazon Sagemaker Canvas ซึ่งทำให้คนทั่วไปสามารถจะทำเองได้ และเป็นเครื่องมือที่ใช้งานง่าย ดังนั้นแนวโน้มในการวิเคราะห์ข้อมูลในอนาคตจะมุ่งสู่การใช้ Citizened Data scientist ที่เป็นคนทำงานในองค์กรหรืออุตสาหกรรมนั้นๆ โดยไม่จำเป็นต้องมีความรู้ด้านไอทีหรือ Data Science มากนัก

3. สถาปัตยกรรม Data fabric จะเป็นตัววัดความสำเร็จของการทำโครงการ Big Data อุปสรรคที่สำคัญของการทำโครงการ Big Data คือการที่ไม่สามารถที่จะรวบรวมข้อมูลจากหลายแหล่งเข้าด้วยกันได้ ข้อมูลอยู่กระจัดกระจายไม่สามารถที่จะมีแหล่งข้อมูลที่แหล่งใดแหล่งหนึ่งที่สามารถเชื่อถือได้ การทำ Data Fabric คือกระบวนการบริหารจัดการข้อมูล ที่ทำให้ผู้ต้องการใช้ข้อมูลต่างๆสามารถจะเข้าถึง ข้อมูลที่ต้องการได้ และนำมาประมวลผลข้อมูลได้ ไม่ว่าข้อมูลจะอยู่ที่ใดก็ตาม ซึ่งองค์กรใดที่มี สถาปัตยกรรม Data fabric ก็จะสามารถนำข้อมูลต่างๆมาวิเคราะห์ได้ดีขึ้น

4. การวิเคราะห์ข้อมูลจะเน้นข้อมูลที่ถูกต้อง (Right data) มากกว่าปริมาณ หลักการเดิมของการวิเคราะห์ข้อมูล Big Data คือการที่เราจะเน้นเรื่องของปริมาณ และข้อมูลที่มีขนาดใหญ่ โดยเรามักจะบอกว่า ยิ่งมีข้อมูลมากก็จะวิเคราะห์ข้อมูลได้ดียิ่งขึ้น แต่ในปัจจุบันมีข้อมูลมหาศาล บางอย่างมีความซ้ำซ้อน บ้างก็ไม่ถูกต้อง ทำให้การวิเคราะห์ข้อมูลล่าช้า บางครั้งก็คาดเคลื่อน ดังนั้นแนวโน้มของการวิเคราะห์ข้อมูลจึงต้องเน้นเฉพาะข้อมูลที่ถูกต้องกล่าวคือทำ Right data analytic แทนคำว่า Big data analytic

5. สถาปัตยกรรม Big Data มุ่งไปสู่ Multi cloud มากขึ้น การทำโครงการ Big data ที่เป็นระบบ On-premise เพืยงอย่างเดียวเป็นไปได้ยากขึ้น เพราะข้อมูลเริ่มมีขนาดใหญ่ขึ้น ต้องการทรัพยากรคอมพิวเตอร์มากขึ้น การลงทุนจะมีมูลค่าสูงเกินไป ดังนั้นจึงจำเป็นที่ต้องพึ่งบริการ Big data บน Public cloud มากขึ้น และขณะเดียวกัน Public cloud แต่ละรายก็จะมีบริการการวิเคราะห์ข้อมูลที่แตกต่างกันออกไป องค์กรต่างก็อาจจะต้องใช้บริการของผู้ให้บริการหลายราย ดังนั้นแนวโน้มของ สถาปัตยกรรม Big Data ก็คงจะเห็นการใช้ทั้งระบบ On-premise และ Public cloud ที่จะกลายเป็น Multicloud

ทั้งหมดนี้คือ Big Data Trends 2022 ที่ผมอยากสรุปไว้

ธนชาติ นุ่มนนท์

IMC Institute

——————————

บทความอื่นๆที่เกี่ยวข้อง

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out /  เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out /  เปลี่ยนแปลง )

Connecting to %s