Big Data

22/01/202230/06/2022 thanachart Articles

Big Data Architecture #10: สถาปัตยกรรม Data Lakehouse

สถาปัตยกรรม Big Data ที่องค์กรต่างๆใช้ในช่วงสิบปีที่ผ่านที่นิยมคือสถาปัตยกรรม Data Lake โดยในระยะแรกจะเป็นระบบ On-Premise ที่ใช้เทคโนโลยี Hadoop โดยใช้ HDFS (Hadoop Distributed File System) เป็น Data Storage แต่ในระยะหลังก็มีการทำสถาปัตยกรรม Data Lake โดยใช้ Public Cloud มากขึ้น อาทิเช่นการใช้ Google Cloud Storage, AWS S3 หรือ Azore Data Lake Storage เนื่องจากมีค่าใช้จ่ายที่ถูกกว่า และสามารถต่อยอดไปกับบริการอื่นๆบน Cloud ได้มากกว่า อาทิเช่น AI as a Service หรือบริการ Data Warehouse บน Cloud

แม้ Data Lake จะสามารถที่จะเก็บข้อมูลได้หลากหลายประเภททั้ง Structure, Semi-Structure และ Unstructure สามารถเก็บข้อมูลจำนวนมหาศาลและมีราคาที่ถูกกว่าการใช้ Data Warehouse แต่การบริหารจัดการข้อมูลบนสถาปัตยกรรม Data Lake ก็มีความท้าทายอยู่ในหลายเรื่อง อาทิเช่น

Governance : เนื่องจากข้อมูลใน Data Lake มีขนาดใหญ่ มีการนำเข้ามาอย่างต่อเนื่อง การบริหารจัดการข้อมูลใน Data Lake จึงทำได้ค้อนข้องยาก ต้องมีระบบการจัดการ Data Catalog ที่ดี ต้องมีการจัดการวงจรชีวิตของข้อมูล(Data Life Cycle) ที่ดี ต้องจัดการเรื่องของความปลอดภัยและความเป็นส่วนตัวของข้อมูลที่ดี

ข้อมูลใน Data Lake ค่อนข้างจะยุ่งเหยิงและขาดความน่าเชื่อถือ เนื่องจากข้อมูลที่ถูกนำเข้าใน Data Lake จะเป็นข้อมูลดิบ และอาจถูกนำเข้าอย่างต่อเนื่องบ่อยครั้ง ทำให้การจัดวางข้อมูลต่างๆค่อนข้างจะยุ่งเหยิง และหากไม่มีการจัดระบบที่ดีพอก็จะกระจัดกระจายไปหมด เหมือนการเก็บข้อมูลใน Harddisk แบบไม่มีระบบ นอกจากนี้ข้อมูลดิบบางครั้งยังขาดความน่าเชื่อถือ ดังนั้นการนำข้อมูลมาใช้ได้ต้องทำ Data Preperation และจัดแบ่งเป็นโซนให้ดีพอ ดังที่ได้เคยอธิบายไว้ในหัวข้อ Big Data Architecture #8: การจัดการข้อมูลบน Data Lake

Data Lake ไม่ได้สนับสนุนข้อมูลที่เป็น Transaction เนื่องจาก Data Lake จะเก็บข้อมูลดิบ จึงไม่ได้สนับสนุนข้อมูลที่เป็น Transaction แบบ Data Warehouse แต่จะมองข้อมูลเป็นออปเจ็คหรือไฟล์ที่จะเป็นก้อนหรือไฟล์เดียวกัน เราจะไม่สามารถเพิ่ม ค้นหาหรือลบข้อมูลระหว่างกลางช่วงใดช่วงหนึ่งได้ และไม่สนับสนุนคุณสมบัติ ACID (atomicity, consistency, isolation, durability) เหมือนที่ Data Warehouse สามารถทำได้กับข้อมูลที่เป็น Transaction

การประมวลผลข้อมูลบน Data Lake ทำได้ยาก ระบบประมวลผลข้อมูลบน Data Lake ไม่ได้ใช้เครื่องมือพื้นฐานเช่นภาษา SQL อย่าง Data Warehouse และบางครั้งแม้แต่การจะประมวลข้อมูลง่ายๆอาจต้องเขียนโปรแกรมที่ซับซ้อนอย่าง Apache Spark หรือ Hive นักวิเคราะห์ข้อมูลบน Data Lake อาจต้องเรียนรู้เทคโนโลยีในการประมวลที่หลากหลาย

ซึ่งผมเองก็เคยได้เขียนบทความในตอนที่แล้วว่า การวิเคราะห์ข้อมูลส่วนใหญ่ด้วยภาษา SQL อาจต้องนำข้อมูลจาก Data Lake เข้าสู่ Data WareHouse เพื่อความรวดเร็วในการแสดงข้อมูล โดยใช้สถาปัตยกรรม Data Lake ร่วมกับ Data Warehouse

รูปที่ 1 สถาปัตยกรรม Big Data รูปแบบต่างๆ [จาก The Modern Cloud Data Platform, Alice LaPlante]

ด้วยเหตุผลที่กล่าวมาข้างต้น จึงเริ่มมีการนำสถาปัตยกรรม Big Data ที่เป็น Data Lakehouse เข้ามาใช้โดยเป็นการนำจุดเด่นของทั้ง Data Warehouse และ Data Lake มารวมอยู่ในที่เดียวกัน กล่าวคือสามารถใช้เก็บข้อมูลที่มีโครงสร้างและมีการบริหารจัดการข้อมูลได้เหมือนกับ Data Warehouse แต่จะมีความคล่องตัว ยืดหยุ่นและราคาถูกเหมือนกับ Data Lake ทั้งนี้ Data Lakehouse จะมีคุณสมบัติที่สำคัญดังนี้

จะสนับสนุนการทำ Transaction เหมือนกับ Data Warehouse และมีคุณสมบัติด้าน ACID
ข้อมูลจะถูกบังคับให้มี Schema เลยจะทำให้การทำ Governance เป็นไปได้ง่ายขึ้น
สามารถเก็บข้อมูลได้หลากหลายประเภท ทั้ง Structure, Semi-structure และ Unstructure
สามารถทำ BI จาก Data Lakehouse ได้โดยตรงผ่าน connector อย่าง JDBC/ODBC
สนับสนุนเครื่องมือการประมวลผลได้หลากหลายเหมือน Data Lake เช่น SQL หรือ Apache Spark และสามารถที่จะใช้เครื่องมือที่หลากหลายในการที่จะเข้าถึงข้อมูลเช่นการใช้ API หรือภาษาอย่าง Python หรือ R
มีมาตรฐานเปิดในการเก็บข้อมูล เช่นอาจเป็น Apache Parquet, ORC
จะต้องแยกระหว่าง Storage กับการประมวลผล (Compute) เพื่อให้แต่ละส่วนสามารถ Scale ได้อย่างอิสระ

ทั้งนี้ในปัจจุบันมีบริการบน Public Cloud หลายๆอย่างที่มีคุณสมบัติใกล้เคียงกับ Data Lakehouse เช่น Amazon Athena, SnowFlake หรือ Google BigQuery แต่ก็อาจขาดคุณสมบัติที่สำคัญในบางเรื่องเช่นด้านการบริหารจัดการ Data Governance หรือไม่สามรถเก็บข้อมูลที่เป็น Unstructure ได้ หรืออย่างกรณีของ Google BigQuery ก็มาตรฐานในการเก็บข้อมูลเฉพาะ

ดังนั้นเวลากล่าวถึง Data Lakehouse จึงทำให้หลายคนจันึกถึงเทคโนโลยีตัวหนึ่งคือการใช้ Delta Lake เสริมไปกับ Apache Spark ที่รันอยู่บน Data Lake แบบเดิม โดย Delta Lake จะเพิ่มคุณสมบัติด้าน ACID กับการสนับสนุนการทำ Transaction ต่างๆตามที่ Data LakeHouse ต้องการ โดยจะมีวิธีการใช้ Delta Lake ได้หลายแบบคือ

การใช้ Delta Lake ผ่าน local Spark shells
การใช้ผ่าน GitHub ทาง https://github.com/delta-io/delta
การใช้บริการ Cloud ของ Databricks ที่เป็น Community Edition

รูปที่ 2 สถาปัตยกรรม Data Lakehouse โดยใช้ Delta Lake [จาก Essential PySpark for Scalable Data Analytics queueม S.Nudurupati]

ซึ่งการใช้ Delta Lake เราจะสนใจที่จะใช้กับ Silver Zone ของ Data Lake เพื่อทำให้โซนนั้นทำหน้าที่เป็น Data LakeHouse

รูปที่ 3 การแบ่งโซนของ Data Lakehouse [จาก Data Engineering with Apache Spark, Delta Lake, and Lakehouse, Manoj Kukreja, Danil Zburivsky]

หากท่านใดสนใจที่จะทำ Data LakeHouse ผมแนะนำให้ลองเข้าไปศึกษาเว็บ Databricks เพิ่มเติม

ธนชาติ นุ่มนนท์

IMC Institute

——-

บทความอื่นๆที่เกี่ยวข้อง

ตอนที่ 1 : Big Data Pipeline ทำไมไม่ใช่ Data Warehouse
ตอนที่ 2 : สถาปัตยกรรมบน Data Lake
ตอนที่ 3 : จาก Hadoop แบบ On-Premise สู่การใช้บริการบน Public cloud
ตอนที่ 4 : สถาปัตยกรรม Data platform บน Public cloud
ตอนที่ 5 : สถาปัตยกรรม Data platform สำหรับประมวลผลข้อมูลแบบ Streaming
ตอนที่ 6 : สถาปัตยกรรม Cloud Data platform สำหรับประมวลผลข้อมูลทั้งแบบ Batch และ Streaming
ตอนที่ 7: แนวโน้มสถาปัตยกรรม Big Data 2022
ตอนที่ 8: การจัดการข้อมูลบน Data Lake
ตอนที่ 9: สถาปัตยกรรม Data Lake + Data Warehouse

18/07/202116/01/2022 thanachart Articles

Big Data Architecture #2: สถาปัตยกรรมบน Data Lake

ในตอนที่แล้ว ผมได้ระบุให้เห็นว่าการออกแบบสถาปัตยกรรม Big Data โดยใช้ Data Warehouse เพียงอย่างเดียวมีความไม่เหมาะสมอย่างไร เลยทำให้ในช่วงปี 2006 ได้มีการนำเทคโนโลยี Apache Hadoop มาใช้ในการทำหน้าเก็บและประมวลผลข้อมูลขนาดใหญ่ ที่เป็นหลักการของ Data Lake แทนที่ระบบของ Data Warehouse โดยมีสถาปัตยกรรมของระบบดังแสดงในรูปที่ 1

รูปที่ 1 Big data architecture โดยใช้ Data Lake

ทั้งนี้ Hadoop ที่เป็น Data Lake จะสามารถตอบโจทย์เรื่อง Big Data ตามคุณสมบัติต่างๆได้ดังนี้

Volume เทคโนโลยี Hadoop มีสถาปัตยกรรมแบบกระจายที่ใช้ Commodity Hardware ซึ่งอาจจะเริ่มจากจำนวนเครื่องไม่มากนักและขยายไปเรื่อยๆได้ ทำให้สามารถเก็บข้อมูลได้เป็น Petabyte ในราคาที่ถูกกว่าเทคโนโลยี Data Warehouse มาก
Variety เทคโนโลยี Hadoop สามารถเก็บข้อมูลได้หลากหลายชนิดทั้งที่เป็น structured data, semi-structured data และ unstructured data
Velocity เทคโนโลยี Hadoop มีการประมวลผลได้หลายภาษา และสามารถที่จะใช้ประมวลผลข้อมูล streaming แบบ real-time หรือ Near real time ได้

นอกจากนี้ Apache Hadoop ยังมีเทคโนโลยีอื่นๆอีกจำนวนมากที่สามารถนำมาใช้งานร่วมกันได้ ทำให้การออกสถาปัตยกรรม Data Lake โดยใช้ Hadoop มีความสมบูรณ์ยิ่งขึ้น โดยเราสามารถที่จะเลือกใช้เทคโนโลยีต่างๆได้ดังนี้

Data Ingestion: Sqoop, KafKa, NiFi, Flume, etc.
Data Storage: Hadoop Distributed File System (HDFS)
Data Processing / Data Analytic: Hive, Spark, Impala, Spark MLlib, etc.
Data Visualisation: Tableau, Power BI, Qlik, etc.

รูปที่ 2 Big data architecture ที่ใช้ทั้ง Data Lake และ Data Warehouse

เทคโนโลยีการประมวลผลของ Hadoop อย่าง Hive หรือ Spark หากจะนำไปแสดงผลโดยตรงยัง Data visualisation tool (ดังแสดงในรูปที่ 1) บางครั้งจะพบว่ามีความเร็วไม่พอ ดังนั้นเราจึงมักเห็นสถาปัตยกรรม Big data ที่นำเอา Data Warehouse (หรืออาจเป็น Database) มาเก็บข้อมูลไว้ก่อน (ดังแสดงในรูปที่ 2) เพื่อจะทำให้การทำ Query จาก Data visualisation tool มีความรวดเร็วขึ้น และจะแบ่งวิธีการวิเคราะห์ข้อมูล โดยการทำ BI จะใช้ข้อมูลที่อยู่ใน Data Warehouse ผ่านภาษา SQL ส่วนการทำ Data science ก็จะใช้ข้อมูลใน Data Lake ผ่านเครื่องมือต่างๆเช่น Spark MLlib เป็นต้น

แต่อย่างไรก็ตามการติดตั้ง Hadoop บนระบบ On-premise ก็ยังเป็นการลงทุนที่ค่อนข้างสูง จึงทำให้หลายๆโครงการในปัจจุบันเริ่มพิจารณาสถาปัตยกรรม Big data บนระบบ Cloud ซึ่งผมจะเขียนอธิบายในตอนต่อไป

ธนชาติ นุ่มมนท์

IMC Institute

18/07/202116/01/2022 thanachart Articles

Big Data Architecture #1: Big Data Pipeline ทำไมไม่ใช่ Data Warehouse

ขั้นตอนการประมวลผลข้อมูลขนาดใหญ่ (Big data pipeline) จะประกอบด้วยขั้นตอนหลักและต้องใช้เทคโนโลยีต่างๆอยู่ 5 ด้านคือ

Data Ingestion คือขั้นตอนการนำข้อมูลดิบ (Raw data) จากแหล่งต่างๆเข้ามา ซึ่งอาจต้องใช้เทคโนโลยีที่แตกต่างกันสำหรับแหล่งข้อมูลหลากหลายชนิด
Data Storage คือขั้นตอนการเก็บข้อมูลมาไว้ที่เดียวกัน ซึ่งเทคโนโลยีในการเก็บข้อมูลจากหลายแหล่งอาจเป็น Data Warehouse หรือ Data Lake
Data Processing คือขั้นตอนในการประมวลผลข้อมูลที่เป็นการแปลงข้อมูลดิบมาอยู่ในรูปแบบของข้อมูลที่นำไปวิเคราะห์ต่อได้ โดยขั้นตอนนี้อาจทำก่อนจะนำเข้า Data storage (เป็นการทำตามหลักการของ ETL) หรืออาจทำหลังจากที่มีข้อมูลอยู่ใน Data Storage แล้วก็ได้ (ทำตามหลักการ ELT) ซึ่งก็จะมีเทคโนโลยีที่หลากหลายในการประมวลผลข้อมูล ขึ้นอยู่กับประเภทของข้อมูลและเทคโนโลยีของ Data storage
Data Analytics คือขั้นตอนการวิเคราะห์ข้อมูล ซึ่งอาจแบ่งได้เป็นการทำ Business Intelligence เพื่อค้นหาตำตอบต่างๆจากข้อมูลทีมีอยู่ หรือการทำ Data science ที่จะนำข้อมูลมาพัฒนาโมเดลในการพยากรณ์ต่างๆ ซึ่งการวิเคราะห์ทั้งสองแบบนี้อาจใช้เทคโนโลยีที่แตกต่างกัน
Data Visualisation คือขั้นตอนในการแสดงผลข้อมูล ซึ่งอาจเป็นการนำข้อมูลที่ได้จากการวิเคราะห์มาแสดงผลให้ผู้ใช้เข้าใจได้ง่ายขึ้นผ่านรายงานหรือรูปกราฟฟิกต่างๆ

เมื่อพูดถึงสถาบัตยกรรมทางด้าน Big data หลายคนก็จะมีคำถามในเรื่องของ Data storage ว่าควรจะเป็น Data warehouse หรือ Data Lake ดี เพื่อให้เห็นภาพเปรียบเเทียบระหว่างเทคโนโลยีทั้งสองแบบ ผมของเริ่มจากสถาปัตยกรรมของ Data Warehouse ในรูปที่ 2 ซึ่งเทคโนโลยี Data Warehouse ที่ส่วนใหญ่จะมีพื้นฐานมาจากระบบสถาปัตยกรรมฐานข้อมูลแบบ RDBMS ซึ่งจะทำหน้าที่สองอย่างคืดทั้งในการเป็น Storage และ Analytics โดยใช้ภาษาอย่าง SQL

รูปที่ 2 Data architecture ที่ใช้ Data Warehouse

ซึ่งถ้าเรายกตัวอย่างเทคโนโลยีต่างๆสำหรับการทำ Data Warehouse อาจเห็นดังนี้

Data Ingestion: Informatica, Talend, Oracle Data Integration Suite, Pentaho Data integration, Apache NiFi, etc.
Data Warehouse (Data storage & Data analytic): HP Vertica, Oracle Exadata, Teradata, etc.
Data Analytic (Data science): RapidMiner, Alteryx, Dataiku, etc.
Data Visualisation: Tableau, Power BI, Qlik, etc.

แต่เมื่อพิจารณาจากหลักการของ Big data จะพบว่า Data Warehouse มีข้อจำกัดหลายอย่างที่ไม่สามารถตอบโจทย์ได้ดังนี้

Volume เทคโนโลยี Data Warehouse จะเก็บข้อมูลปริมาณเพียงเป็นหลัก GB จนถึงเพียงหลายสิบ TB แต่เมื่อพูดถึง Big Data ปริมาณข้อมูลจะมีเป็น TB จนถึง PB ซึ่งถ้าต้องการ Data Warehouse ที่สามารถเก็บข้อมูลขนาดนี้ได้ ราคาจะแพงมากและอาจไม่สามารถรองรับได้
Variety เทคโนโลยี Data Warehouse จะออกแบบมาเพื่อรองรับข้อมูลที่มีโครงสร้าง (Structure data) ไม่ได้เน้นข้อมูลหลากหลายชนิด
Velocity ข้อมูลขนาดใหญ่บางครั้งจะมีข้อมูลที่เข้ามาต่อเนื่องและอาจต้องการวิเคราะห์ข้อมูลที่เพิ่งถูกนำเข้ามา (Streaming data) แบบทันทีทันใดในลักษณะ Near real time ซึ่งเทคโนโลยี Data warehouse ส่วนใหญ่ไม่ได้ออกแบบมาในลักษณะเพื่องานแบบนี้ และเครื่องมือในการวิเคราะห์ส่วนใหญ่ก็จะเป็นภาษา SQL

นอกจากนี้เราก็อาจจะพบว่า เทคโนโลยี Data Warehouse อาจมีจุดอ่อนอีกบางประการถ้าจะนำมาใช้งานกับ Big Data อาทิเช่น

มีราคาค่อนข้างสูง ถ้าต้องการเก็บข้อมูลจำนวนมาก
เทคโนโลยีที่ใช้ประมวลผลไม่มีความหลากหลายโดยมากจะใช้ภาษา SQL และหากมาทำงานด้าน Data Science จะค่อยข้างยากสำหรับข้อมูลขนาดใหญ่
Data Warehouseจะมีทั้ง Storage และ Analytics/Processing อยู่ในระบบเดียวกัน ทำให้การขยายตัวด้านใดด้านหนึ่งลำบาก เพราะต้องทำควบคู่กันไป

ด้วยเหตุผลเหล่านี้ การทำ Big data จึงจำเป็นต้องใช้ Data Lake เข้ามาทำหน้าที่ Data Storage ซึ่งผมจะอธิบายให้เข้าใจในตอนต่อไป

ธนชาติ นุ่มนนท์

IMC Institute

18/08/201819/08/2018 thanachart Big Data

การวิเคราะห์พฤติกรรมลูกค้าควรมีข้อมูลธุรกรรมขนาดใหญ่ของลูกค้าแต่ละราย

Screenshot 2018-08-05 11.29.12

วันก่อนไปที่ร้านขายเฟอร์นิเจอร์แห่งหนึ่งเพราะอยากซื้อ ตู้โชว์แบบเดียวกับที่เคยซื้อเมื่อ 6-7 ปีก่อน เพิ่มอีกซักหนึ่งชุด แต่พอไปถึงหารุ่นนั้นไม่เจอ ก็เลยขอพนักงานดูประวัติการซื้อย้อนหลัง เพราะอยากทราบว่าตอนนั้นซื้อรุ่นไหน สิ่งที่น่าสนใจคือร้านนี้เก็บช้อมูลลูกค้าไว้ทุกรายการที่เราซื้อ รวมถึงวัสดุทุกชิ้น แต่พอเกิน 5 ปีก็ไม่มีข้อมูลแล้ว ซึ่งก็พอเข้าใจได้ว่าข้อมูลเก่าไปและต้องการประหยัดพื้นที่เก็บข้อมูล ก็เลยลบข้อมูลเก่าทิ้งไป ผมว่าที่ร้านมีข้อมูล Big Data ของลูกค้าที่น่าสนใจ เพราะเขาเก็บข้อมูลธุรกรรมการซื้อของลูกค้าไว้ทุกรายการ และเขาทราบข้อมูลที่อยู่ของลูกค้าและเบอร์ติดต่อชัดเจน คำถามที่ผมสนใจก็คือว่าจากข้อมูลที่เขามีอยู่ เขาสามารถที่จะวิเคราะห์พฤติกรรมลูกค้าได้ไหม การเก็บข้อมูลธุรกรรมของลูกค้าไว้เพียง 5 ปีเพียงพอจะวิเคราะห์ข้อมูลลูกค้าเป็นรายบุคคลได้ดีแค่ไหน ลูกค้าแต่ละรายจะมาซื้อเฟอร์นิเจอร์และอุปกรณ์ต่างๆบ่อยแต่ไหนในแต่ละปี

แต่อย่างไรก็ตามสิ่งหนึ่งที่น่าสนใจของร้านนี้คือ เขามีกลยุทธ์ที่ดีในการจะทำ Big data โดยสามารถที่จะให้ลูกค้ามาสมัครเป็นสมาชิก ใส่รายละเอียดที่อยู่ได้ และสามารถเก็บธุรกรรมของลูกค้าได้ อย่างที่ผมเคยบอกไว้ว่าถ้าเราจะทำ Big Data เราควรจะต้องเน้นที่ข้อมูลธุรกรรม (ดูรายละเอียดได้ที่ Big data ต้องเริ่มต้นจากการวิเคราะห์ Transactional data ไม่ใช่เล่นกับ summary data) ซึ่งถ้าได้ข้อมูลเหล่านี้มาก็จะทำให้เราวิเคราะห์ข้อมูลพฤติกรรมลูกค้าได้ดีขึ้น ยิ่งมีจำนวนธุรกรรมของลูกค้าแต่ละรายมากเท่าไรก็ยิ่งดีขึ้น

หากเราพิจารณาข้อมูลที่เป็น Big Data เราอาจเห็นข้อมูลใหญ่ๆอยู่สี่ประเภทคือ

Social media data
Mobile data
Internet of things data
Transactional data

ซึ่งจะเห็นได้ว่าข้อมูลที่จะเกี่ยวข้องกับพฤติกรรมลูกค้าที่ธุรกิจต่างๆมักจะมีก็คือข้อมูลธุรกรรมต่างๆที่ลูกค้ามาทำกับธุรกิจเช่น การซื้อสินค้า การติดต่อสื่อสาร เพราะข้อมูล Social media หรือ ข้อมูล Mobile โดยมากมักจะเป็นข้อมูลภายนอกองค์กรธุรกิจ ส่วนข้อมูล IoT ก็จำเป็นจะต้องมีการติดตั้งอุปกรณ์ต่างๆ

1a-transactional-data

แต่ความท้าทายของธุรกิจที่จะมีข้อมูลธุรกรรมเหล่านี้ก็คือกลยุทธ์ในการเก็บข้อมูล บางธุรกิจมีการทำธุรกรรมขายให้กับลูกค้าจำนวนมาก แต่ก็อาจไม่ทราบว่าลูกค้าคือใครเช่น ธุรกิจค้าปลีกต่างๆ ซึ่งบางทีฝ่ายการตลาดก็ต้องพยายามจูงใจให้ลูกค้าสมัครเป็นสมาชิกเพื่อทราบข้อมูลของลูกค้าเป็นรายคน บางธุรกิจลูกค้าก็อาจไม่ได้มาทำธุรกรรมบ่อยนักเช่นประกันภัยรถยนต์ ถ้าจะได้ข้อมูลขนาดใหญ่ก็อาจต้องใช้เทคโนโลยีอย่าง IoT หรือข้อมูล Mobile มาช่วย ซึ่งในปัจจุบันเราจะเห็นว่าธุรกิจที่มีข้อมูลธุรกรรมลูกค้าแต่ละรายจำนวนมากก็อาจมีกลุ่มต่างๆดังนี้

ผู้ให้บริการโทรศัพท์เคลื่อนที่
ธนาคาร
บริษัทหลักทระพย์
ธุรกิจด้านการชำระเงินออนไลน์เข่น Mobile Payment
ธุรกิจค้าปลีกที่ลูกค้าลงทะเบียนข้อมูลบุคคลไว้
โรงพยาบาล

ดังนั้นจะเห็นได้ว่าความยากของการทำ Big data ประเด็นหนึ่งก็คือข้อมูลที่ธุรกิจส่วนใหญ่มักจะมีข้อมูลลูกค้าแต่ละรายเป็นจำนวนจำกัด ทำให้ไม่สามารถจะวิเคราะห์ข้อมูลพฤติกรรมลูกค้าได้ ดังนั้นจำเป็นอย่างยิ่งที่ธุรกิจจะต้องร่วมกันวางกลยุทธ์เพื่อให้ได้ข้อมูลเหล่านั้นมา

ธนชาติ นุ่มนนท์

IMC Institute

02/10/201702/04/2018 thanachart Big Data

Big Data as a Service แนวทางการทำโครงการ Big Data ที่ไม่ต้องลงทุนโครงสร้างพื้นฐาน

Screenshot 2017-09-18 10.59.49

ช่วงหลายเดือนที่ผ่านมาผมเดินสายบรรยายเรื่อง Big Data Jumpstart โดยแนะนำให้องค์กรต่างๆทำ Big Data as a Service ซึ่งเป็นการใช้ Cloud Services ของ Public cloud หลายใหญ่ต่างๆทั้ง Google Cloud Platform, Microsoft Platform หรือ Amazon Web Services (AWS) ทำให้เราสามารถที่จะลดค่าใช้จ่ายได้มหาศาลโดยเฉพาะกับองค์กรขนาดกลางหรือขนาดเล็กที่ไม่มีงบประมาณหลายสิบล้านในการลงทุนโครงสร้างพื้นฐานด้าน Big Data

Screenshot 2017-10-02 08.27.19

รูปที่ 1 องค์ประกอบของเทคโนโลยีสำหรับการทำ Big Data

การลงทุนโครงสร้างพื้นฐานหรือการจัดหาเทคโนโลยีสำหรับโครงการ Big Data โดยมากจะมีการลงทุนอยู่สี่ด้านคือ 1) Data Collection/Ingestion สำหรับการนำข้อมูลเข้ามาเก็บ 2) Data Storage สำหรับการเก็บข้อมูลที่เป็นทั้ง structure และ unstructure 3) Data Analysis/Processing สำหรับการประมวลผลข้อมูลที่อยู่ใน data storage และ 4) Data visualisation สำหรับการแสดงผล

ปัญหาที่องค์กรต่างๆมักจะมีก็คือการจัดหาเทคโนโลยีด้าน Data storage ที่จะต้องสามารถเก็บ Big Data ซึ่งนอกจากจะมีขนาดใหญ่แลัวข้อมูลยังมีความหลากหลาย จึงต้องหาเทคโนโลยีราคาถูกอย่าง Apache Hadoop มาเก็บข้อมูล แต่การติดตั้งเทคโนโลยีเหล่านี้ก็มีค่าใช้จ่ายในการหาเครื่องคอมพิวเตอร์ Server จำนวนมากมาใช้ และค่าใช้จ่ายด้าน Hardware ก็ค่อนข้างสูงหลายล้านบาท บางทีเป็นสิบล้านหรือร้อยล้านบาท ซึ่งอาจไม่เหมาะกับองค์กรขนาดเล็ก หรือแม้แต่องค์กรขนาดใหญ่ก็มีคำถามที่จะต้องหา Use case ที่ดีเพื่อตอบเรื่องความคุ้มค่ากับการลงทุน (Returm of Investment) ให้ได้

ดังนั้นการทำโครงการ Big Data ไม่ควรจะเริ่มต้นจากการลงทุนเรื่องเทคโนโลยี ไม่ใช่เป็นการจัดหาระบบอย่างการทำ Apache Hadoop แต่ควรจะเป็นการเริ่มจากคิดเรื่องของธุรกิจเราต้องคิดเรื่องของ Business Transformation (Don’t thing technology, think business transformation) การทำโครงการ Big Data ควรเริ่มจากทีมด้านธุรกิจไม่ใช้หานักเทคโนโลยีมาแนะนำการติดตั้งระบบหรือลง Hadoop หรือหานักวิทยาศาสตร์ข้อมูลมาทำงานทันที เพราะหากฝ่ายบริหารหรือฝ่ายธุรกิจมีกลยุทธ์ด้าน Big Data เข้าใจประโยชน์ของการทำ Big Data ได้ เราสามารถเริ่มต้นโครงการ Big Data ได้อย่างง่าย โดยใช้ประโยชน์จากบริการ Big Data as a Service บน Public cloud ซึ่งทำให้องค์กรไม่ต้องเสียค่าใช้จ่ายเริ่มต้นในราคาแพง ที่อาจไม่คุ้มค่ากับการลงทุน

เทคโนโลยีในการทำ Big Data ต่างๆเช่น Big data storage (อย่าง Hadoop HDFS) เราสามารถใช้ Cloud Storage อย่าง Amazon S3, Google Cloud Storage หรือ Azure Blob เข้ามาแทนที่ได้ โดยบริการเหล่านี้ค่าใช้จ่ายในการใช้จ่ายในการใช้งานจะต่ำกว่าการติดตั้ง Hadoop มาใช้งานเป็นสิบหรือร้อยเท่า แม้อาจมีข้อเสียเรื่องเวลาในการ Transfer ข้อมูลจาก site ของเราขึ้น Public Cloud แต่หากมีการวางแผนที่ดีแล้วสามารถทำงานได้อย่างมีประสิทธิภาพ เช่นเดียวกับเรื่องความปลอดภัยของข้อมูบบน Public cloud หากมีการพิจารณาการใช้ข้อมูลที่เหมาะสมหรือการเข้ารหัสข้อมูลก็จะตัดปัญหาเรื่องเหล่านี้ไปได้

เช่นเดียวกันในการประมวลผลเราสามารถใช้บริการบน Public cloud ที่ใช้ระบบประมวลผลอย่าง Hadoop as a service เช่น DataProc บน Google Cloud Platform, HDInsight ของ Microsoft Azure หรือ EMR ของ AWS ซึ่งมีค่าใช้จ่ายตามระยะเวลาการใช้งาน (pay-as-you-go) ซึ่งเราไม่จำเป็นต้องเปิดระบบตลอด และมีค่าใช้จ่ายที่ต่ำมาก รวมถึงการใช้บริการอื่นๆอย่าง Machine Learning as a Service บน public cloud ที่มีความสามารถที่ค่อนข้างสูง ทำให้เราสามารถทำงานได้อย่างมีประสิทธิภาพ

แม้แต่การทำ Data Visualisation เราก็สามารถที่จะใช้เครื่องมือบน public cloud ที่จัดเป็น Big Data Software as a Service อย่างเช่น Google Data Studio 360, PowerBI บน Microsoft Azure หรือ Quicksight ของ AWS ได้ ซึ่งรูปที่ 2 ก็แสดงสรุปให้เห็นบริการ Cloud Service เหล่านี้ บน public cloud platform ต่างๆ

Screenshot 2017-10-02 12.09.47

รูปที่ 2 Tradition Big Data Technology เทียบกับ Big Data as a Service ต่าง

ซึ่งการทำโครงการ Big Data โดยใช้ public cloud เหล่านี้สามารถที่จะเริ่มทำได้เลย ไม่ได้มีค่าใช้จ่ายเริ่มต้น และค่าใช้จ่ายที่ตามมาก็เป็นค่าบริการต่อการใช้งาน ซึ่งค่าบริการที่อาหมดไปหลักๆก็จะเป็นค่า Cloud Storage ที่อาจเสียประมาณเดือนละไม่ถึงพันบามต่อ Terabyte และหากเราต้องการเปลี่ยนแปลงหรือยกเลิกบริการเหล่านี้ก็สามารถใช้ได้ทันที ซึ่งวิธีการตัดสินใจที่จะทำโครงการ Big Data เหล่านี้ก็จะไม่ได้เน้นเรื่องของความคุ้มค่ากับการลงทุนมากนัก เพราะค่าใช้จ่ายเริ่มต้นต่ำมาก แต่มันจะกลายเป็นว่า เราจะทำโครงการอะไรที่ให้ประโยชน์กับธุรกิจมากสุด และเมื่อเริ่มทำลงทุนเรื่มต้นเล็กน้อยก็จะเห็นผลทันทีว่าคุ้มค่าหรือไม่

กล่าวโดยสรุป วันนี้เราสามารถเริ่มทำโครงการ Big Data ได้เลยโดยเริ่มที่โจทย์ทางธุรกิจ คุยกับฝั่งธุรกิจ ไม่ใช่เริ่มที่เทคโนโลยี

ธนชาติ นุ่มนนท์

IMC Institute

ตุลาคม 2560

01/09/201702/04/2018 thanachart Big Data

ระดับการวัดความสามารถในการนำ Big Data ไปใช้ในองค์กร

ผมเห็นว่าวันนี้ทุกคนต่างก็พูดเรื่อง Big Data ตั้งแต่คนไอทีไปจนถึงนายกรัฐมนตรี ต่างก็บอกว่าจะเอา Big Data มาใช้ในองค์กร บ้างก็บอกว่าทำแล้วบ้างก็บอกว่ากำลังทำ บางคนทำรายงานอะไรเล็กน้อยก็บอกว่าทำ Big Data อยู่ ซึ่งผมก็ไม่แน่ใจว่าแต่ละคนเข้าใจความหมายของ Big Data แค่ไหน แต่ไม่ว่าจะมองนิยาม Big Data อย่างไรก็ตามผมมองว่า Big Data มีเป้าหมายสำหรับองค์กรในสามประเด็นดังนี้

การนำข้อมูลขนาดใหญ่มาช่วยในการตัดสินใจได้ดีขึ้น เช่นสามารถตอบได้ว่าเราควรจะทำอะไร นำสินค้าใดมาขาย ลูกค้าเราอยู่ที่ใด จะใช้จ่ายงบประมาณอย่างไร
การนำข้อมูลขนาดใหญ่มาช่วยให้การทำงานดีขึ้น เช่นทราบข้อมูลโดยทันทีว่าลูกค้าต้องการอะไร ทราบตำแหน่งของลูกค้าเป้าหมาย หรือช่วยเพิ่มยอดขาย จะใช้งบประมาณให้มีประสิทธิภาพอย่างไร
การทำให้ข้อมูลเป็นทรัพย์สินขององค์กร และทำให้เกิด Business Transformation เช่นการนำข้อมูลที่มีอยู่ไปต่อยอดร่วมกับคู่ค้ารายอื่นๆเพื่อสร้างสินค้าใหม่ๆ

การทำ Big Data ไม่ใข่แค่เรื่องของการทำ Data Cleansing, Data Warehouse, Business Intelligence หรื่อเรื่องของเทคโนโลยี องค์กรที่จะทำ Big Data อาจต้องเปลี่ยนทัศนคติในรูปแบบเดิมๆอยู่หลายเรื่อง ซึ่งผมมักจะยกคำพูดสั้นมา 3-4 ประโยคเกี่ยวกับ Big Data ดังนี้

Don’t think technology, think business transformation.
Don’t think data warehouse, think data lake.
Don’t think business intelligence, think data science.
Don’t think “what happened”, think “what will happen”.

สุดท้ายต้องทำความเข้าใจเรื่องระดับความสามารถของการนำ Big Data ไปใช้ในองค์กร (Big Data Matuarity Model) ว่ามีอยู่ 5 ระดับดังรูปนี้ ซึ่งจะบอกได้ว่าองค์กรของเราอยู่ในระดับใด

Screenshot 2017-09-01 11.46.57

รูปที่ 1 Big Data Business Model Maturity Index, จาก Big Data MBA, Bernard Marr

Business Monitoring ในขั้นตอนนี้องค์กรยังเพียงแค่ทำ Business Intelligence หรือยังทำ Data Warehouse ซึ่งเป็นขั้นตอนที่เราจะแสดงข้อมูลหรือทำรายงานต่างๆขององค์กรในลักษณะของ Descriptive Analytic ที่เราจะดูข้อมูลในอดีตเพื่อให้ทราบว่า What happened?
Business Insights ในขั้นตอนนี้จะเป็นการเริ่มต้นทำ Big Data Project ที่มีการทำ Data Lake เพื่อรวบรวมข้อมูลจากทั้งภายในและภายนอกองค์กรทั้งข้อมูลที่เป็น structure, unstructure หรือ semi-structure เพื่อทำ Predictive Analytic เพื่อให้ทราบว่า What will happen?
Business Optimization ในขั้นตอนนี้จะเริ่มเห็นความคุ้มค่าของการลงทุนทำ Big Data Project โดยจะเป็นการทำ Prescriptive Analytic เพื่อให้ทราบว่า How should we make in happen?
Data Monetization ในขั้นตอนนี้จะเป็นการขยายผลเพื่อนำ Data ที่จะเป็นทรัพยากรขององค์กรไปใช้เป็นสินทรัพย์ในการทำงานร่วมกับคู่ค้าหรือองค์กรอื่นๆ
Business Metamorphosis ในขั้นตอนนี้จะเป็นขั้นสูงสุดของการทำ Big Data ที่จะเห็นเรื่องของ Business Transformation ในองค์กรซึ่งอาจเห็นรูปแบบการทำงานใหม่ๆ ธุรกิจใหม่ หรื่อผลิตภัณฑ์ใหม่ๆขององค์กร

จากที่กล่าวมาทั้งหมดนี้จะเห็นได้ว่า การทำ Big Data Project ไม่ใช่เรื่องง่ายๆอย่างที่เข้าใจ จำเป็นต้องปรับวิธีคิดในองค์กรอย่างมาก และต้องเข้าใจเป้าหมายและระดับขั้นของการทำ Big Data ในองค์กร

ธนชาติ นุ่มนนท์

IMC Institute

พฤศจิกายน 2560

28/06/201602/04/2018 thanachart Articles, Big Data

Hortonworks เทียบกับ Hadoop Distribution อื่นๆ

ช่วงสองสัปดาห์ที่ผ่านมา ผมให้ทีมนักศึกษาฝึกงานของ IMC Institute ในโครงการ Big Data School ได้ทดลองติดตั้งและเปรียบเทียบ Hadoop Distribution ต่างๆ ซึ่งผมได้เคยเขียนเรื่อง การติดตั้ง Hadoop Distributions พร้อมทั้งวิธีการติดตั้งไว้แล้ว ในบทความ “Big Data School กับการติดตั้ง Hadoop Distributions” ซึ่งในการเปรียบเทียบDistribution ต่างๆ ผมให้นักศึกษาทดลองติดตั้งสองแบบคือ

การติดตั้ง Hadoop Cluster 4-5 เครื่องบน Amazon EC2 หรือ Microsoft Azure สำหรับที่จะใช้เป็น Production
การใช้ Hadoop Sandbox บนเครื่อง Server หรือเครื่อง PC หนึ่งเครื่อง สำหรับที่จะใช้เป็นเครื่องทดลองหรือทำ Development

ซึ่งนักศึกษาก็ได้แบ่งกลุ่มกันทำ Hadoop Distribution 4 ชุดคือ

Screenshot 2016-06-28 12.20.25

และผมได้ให้พวกเขาสรุปเปรียบเทียบในประเด็นต่างๆเช่น ราคา, ความยากง่ายในการใช้งาน, ความยากง่ายในการติดตั้ง, Opensource Compatibity, คู่มือเอกสารต่างๆและชุมชน, การสนับสนุนจากผู้ผลิต ซึ่งพอสรุปประเด็นต่างๆได้ดังนี้

ราคา: ในแง่ราคา Apache Hadoop เป็นฟรีซอฟต์แวร์แต่ก็ไม่มี support ใดๆ ซึ่งถ้าเปรียบเทียบกรณีนี้ Hortonworks จะดีสุดเพราะฟรีเช่นกันยกเว้นต้องการซื้อ support ขณะที่ Cloudera จะหรีเฉพาะ Express Version และ MapR จะฟรีเฉพาะเวอร์ชั่น M3 ซึ่งทั้งสองเวอร์ชั่นไม่ใช่ Full Feature ที่ทั้งสองรายมีให้
ความง่ายในการติดตั้ง Cluster: เมื่อพิจารณาจากประเด็นนี้ Cloudera จะติดตั้งง่ายสุดโดยผ่าน Cloudera Manager แต่จริงๆแล้วการติดตั้ง Hortonworks ก็ไม่ยากเกินไปถ้าติดตั้งผ่าน Public Cloud หรือ Private Cloud ที่เป็น Openstack โดยใช้ Cloudbreak ส่วน Apache Hadoop ติดตั้งค่อนข้างยากแต่อาจใช้ Ambari ได้
ความง่ายในการใช้งาน: Cloudera และ MapR จะมีส่วนติดต่อผู้ใช้ที่เป็น Hue ที่ค่อนข้างง่ายต่อการใช้งาน ส่วนของ Hortonworks ใช้ Ambari ที่มี Feature เพียงบางส่วน ส่วนของ Apache Hadoop จะต้องติดตั้ง Hue เองซึ่งค่อนข้างยาก
Opensource Compatibility: กรณีนี้ Hortonworks จะดีกว่ารายอื่นมากเพราะจะสอดคล้องกับ Apache Hadoop ที่เป็น Opensource ขณะที่ Cloudera จะเป็น Vendor Lockin หลายตัว อาทิเช่น Cloudera Manager หรือ Impala เช่นเดียวกับ MapR ที่ Lockin ตั้งแต่ MapR-FS และ MapR Streaming
Sandbox: ถ้าต้องการหาตัวทดลองเล่น Cloudera มีจุดเด่นที่มี Docker Image ให้เลยสามารถเล่นกับเครื่องใดก็ได้ ขณะที่ Hortonworks จะเน้นให้เล่นกับ VMware/VirtualBox หรือจะรันผ่าน Microsoft Azure เท่านั้น ส่วน distributation อื่นๆ (MapR, Apache Hadoop) ก็ไม่มี Official Docker Image เช่นกัน
คู่มือเอกสารต่างๆและ Community: ในแง่นี้ทั้งสามรายที่เป็น Commercial Distribution ต่างก็มีเอกสารพอๆกัน แต่ถ้าพูดถึง Community เราอาจเห็นจำนวนคนที่จะแชร์ข้อมูล Cloudera มากกว่า Hortonworks แต่ทั้งนี้เราสามารถใช้ Community กลุ่มเดียวกับ Pure Apache Hadoop เพราะ Hortonworks จะมีความ Opensource Compatibity ค่อนข้างสูงแต่สองรายใหญ่ต่างก็มีงานประจำปีหลายที่คือ Hadoop Summit ของ Hortonworks และ Hadoop World ของ Cloudera ส่วน MapR จำนวน Community น้อยสุด
การสนับสนุนจากผู้ผลิต: ถ้ามองในแง่ประเทศไทย การสนับสนุนจากผู้ผลิตของ Cloudera ยังนำรายอื่นๆอยู่มาก ทำให้หน่วยงานในประเทศไทยรายแห่งสนใจใช้ Cloudera

ทั้งนี้เมื่อพิจารณาโดยรวมแล้ว เราสรุปกันว่า ถ้าจะทำ Product ที่มีราคาถูกสุดและสอดคล้องกับ Pure Apache Hadoop มากที่สุดควรเลือกใช้ Hortonworks ทั้งนี้เพราะ Commercial Distribution จะมีค่าใช้จ่ายในแง่ License หรือ Subscribtion แต่ถ้ามีงบประมาณค่อนข้างเยอะก็อาจเลือกใช้ได้ แต่ไม่ควรใช้ Free Version ของสองรายดังกล่าว (Cloudera และ MapR) ทั้งนี้เนื่องจากไม่ใช่ Full Features และบางอย่างขาดความเสถียร

แต่ถ้าต้องการทดลองหรือใช้เพื่อทำ Development โดยผ่าน Hadoop Sandbox ก็จะแนะนำให้ใช้ Cloudera Quickstart ซึ่งผมเองก็ใช้ตัวนี้ในการอบรม ดังตัวอย่างเอกสารอบรมของผมดังนี้ >> Big data processing using Cloudera Quickstart

สุดท้ายผมมี Slide ทีนักฝึกงานของ IMC Institute ได้ทำขึ้นเพื่อเปรียบเทียบ Hadoop Distribution ต่างๆดังนี้

Hortonworks >> https://docs.google.com/presentation/d/1U6sQSAyQMzFg9Dq9ZLIt_2E_a-6q3kyScMtJV9V2g2g/edit?usp=sharing
MapR >> https://docs.google.com/presentation/d/10I-YWfSVlhsGbt5NCQbnAy8nws3zFU_wWBZwo4CflnQ/edit?usp=sharing
Cloudera >> https://docs.google.com/presentation/d/1Wbi6Q1sGWEjUwXzbsewQBqZ3mFAfA51EbtMLluMKB4I/edit?ts=57621459#slide=id.g14f5cc73fc_22_8
Pure Apache Hadoop
- Pure Hadoop Original Apache Hadoop Series >> https://docs.google.com/presentation/d/1ujHiqi1ZnKRkaN03k0f9UazJiVpR-LDQt4Pno_Xi-pU/edit#slide=id.g14f6b587f9_1_327
  
  Apache hadoop cluster on Docker: >> https://docs.google.com/presentation/d/171diV930LZb4J_GkXfdbhsx4zB5BbVHrFTYZSUMR5Vw/edit?ts=575e207c#slide=id.g14f01e49ed_0_240
  
  Original Apache Hadoop 2.7.1 Multi-node Cluster Installation
  
  >> https://docs.google.com/presentation/d/1ghTF6Medv_szeEh1lwoupOj5u11c7GB4R7-

ธนชาติ นุ่มมนท์

IMC Institute

มิถุนายน 2559

23/06/201602/04/2018 thanachart Articles, Big Data

Slide สำหรับการเรียนรู้ Big Data Hadoop ของ IMC Institute

IMC Institute จัดอบรม Big Data Hadoop มาหลายรุ่นและมีคนผ่านอบรมมาจำนวนมาก และเคยทำเอกสารประกอบการบรรยายหลายชุด วันนี้ผมเลยรวบรวม Slide ต่างๆมาเพื่อให้ทุกท่านได้เรียนรู้ Apache Hadoop + Spark ที่มี Service ต่างๆมากมาย โดยได้เป็นแบบฝึกหัดที่ผู้อ่านสารมารถนำไปฝึกและทดลองใช้งานได้จริง ทั้งนี้ Slide ต่างๆเหล่านี้จะอ้างอิงกับ Cloudera Quickstart ที่ใช้ Docker Image ดังนั้นผู้ที่สนใจจะเรียนรู้จาก Slide ชุดนี้จะต้องมีเครื่องคอมพิวเตอร์หรือ Server ที่มี Docker Engine อยู่ โดยสามารถไปดูขั้นตอนการติดตั้งได้ที่ >> https://docs.docker.com/engine/installation/

Screenshot 2016-06-23 16.23.06

รูปที่ 1 Hadoop Ecosystem

สำหรับ Service ต่างๆที่เคยทำเอกสารการสอนมาก็เป็นไปดังรูปที่ 1 โดยมีเอกสารดังนี้

Service ด้านเก็บข้อมูล

HDFS
HBase

Service ด้านการประมวลผล

Service ด้านการนำข้อมูลเข้า

Apache Spark

ธนชาติ นุ่มนนท์

IMC Institute

มิถุนายน 2559

11/06/201602/04/2018 thanachart Articles, Big Data

Big Data กับการใช้งานในภาครัฐและอุตสาหกรรมอื่นๆ

การนำข้อมูลขนาดใหญ่ไปใช้งานจริงๆ ยังมีไม่มากนัก ทั้งนี้ด้วยข้อจำกัดในเรื่องของเทคโนโลยีและจำนวนบุคลากรที่มีความสามารถ ซึ่งทางสมาคม PIKOM ของมาเลเซียได้ทำรายงานเรื่อง Global Business Services Outlook Report 2015 ชี้ให้เห็นผลกระทบของเทคโนโลยีด้าน Big Data ในประเทศกลุ่ม APAC และอุตสาหกรรมต่างๆ โดยสรุปมาเป็นตารางดังนี้

ตารางที่ 1 ระดับผลกระทบของเทคโนโลยี Big Data [แหล่งข้อมูลจาก PIKOM]

Screenshot 2016-06-11 08.24.00

ซึ่งจะเห็นได้ว่ากลุ่มอุตสาหกรรมที่มีผลกระทบต่อการประยุกต์ใช้เทคโนโลยี Big Data อย่างมากคือ อุตสาหกรรมด้านการเงินการธนาคาร (BFSI) ด้านโทรคมนาคม ด้านค้าปลีกรวมถึงพาณิชย์อิเล็กทรอนิกส์ (E-commerce) และด้านสุขภาพ ส่วนกลุ่มภาครัฐบาลและกลุ่มอุตสาหกรรมการผลิตมีผลกระทบปานกลาง สำหรับประเทศที่มีการประยุกต์ใช้ Big Data อย่างมากคือสหรัฐอเมริกาและสหราชอาณาจักร โดยประเทศญี่ปุ่น สิงคโปร์ และออสเตรเลียมีผลกระทบการประยุกต์ใช้งานปานกลาง ส่วนประเทศไทยอยู่ในกลุ่มที่เหลือที่ยังมีการประยุกต์ใช้งานน้อย

สำหรับตัวอย่างของการนำเทคโนโลยี Big Data มาใช้งานในภาคอุตสาหกรรมต่างๆ มีดังนี้

อุตสาหกรรมค้าปลีก อาจนำมาเพื่อวิเคราะห์ความต้องการของลูกค้า เพื่อทำให้เห็นข้อมูลของลูกค้ารอบด้าน (Customer 360) หรือการแบ่งกลุ่มลูกค้า (Customer Segmentation) นำมาจัดแผนการตลาด สร้างแคมเปญตอบสนองต่อพฤติกรรมการอุปโภค บริโภค ที่ปรับเปลี่ยนอยู่ตลอดเวลา ให้ดึงดูดลูกค้าเข้ามาจับจ่ายใช้สอยมากที่สุด ในสภาพการแข่งขันที่สูง และมีช่องทางอื่นๆ ใหม่ๆ เข้ามาเป็นทางเลือกมากขึ้น
อุตสาหกรรมโทรคมนาคม อาจนำเพื่อใช้ในการวิเคราะห์เครือข่ายโทรศัพท์เคลื่อนที่ วิเคราะห์การใช้งานของลูกค้า การวิเคราะห์แนวโน้มการย้ายค่ายของลูกค้า (Customer Churn) และนำเอาข้อมูลไปต่อยอดเพิ่มการให้บริการอีกมากมาย อีกทั้งยังสามารถนำข้อมูลมาวิเคราะห์ เรื่องความมั่นคงปลอดภัย ให้เป็นประโยชน์กับลูกค้าและเพื่อสาธารณะได้อีกด้วย
อุตสาหกรรมการเงิน อาจนำมาเพื่อวิเคราะห์การฉ้อโกงเงิน การคาดการณ์ความต้องการของลูกค้า การแบ่งกลุ่มลูกค้า และการวิเคราะห์ความเสี่ยงของลูกค้า
ด้านวิทยาศาสตร์และเทคโนโลยีเช่น การพยากรณ์อากาศ การคาดการณ์ข้อมูลน้ำ หรือการวิเคราะห์ข้อมูลจากเซ็นเซอร์ต่างๆ การใช้งานพลังงาน
งานด้านการตลาด อาจนำมาเพื่อวิเคราะห์ข้อมูลจากเครือข่ายสังคมออนไลน์ (Social Media) การวิเคราะห์ข้อมูลที่พูดถึงสินค้าหรือแบรนด์ของหน่วยงาน (Sentiment Analysis) การค้นหาลูกค้าใหม่ๆ บนโลกออนไลน์
งานด้านบันเทิง หรือการท่องเที่ยว เป็นการวิเคราะห์กระแส ความนิยม talk of the town ในแต่ละกลุ่มบริการซึ่งมีส่วนเกี่ยวโยงกับ ข้อมูล ความคิดเห็น ในโซเชียลมีเดีย เป็นส่วนใหญ่ เพื่อจัดโปรแกรมหรืองาน ที่สร้างความสนใจให้ได้ตรงกับความสนใจของตลาด ในแต่ละช่วง แต่ละเวลา กับกลุ่มเป้าหมายที่ต่างกันไป

การประยุกต์ใช้งาน Big Data ในภาครัฐ

สำหรับตัวอย่างการใช้ประยุกต์ใช้งาน Big Data ในภาครัฐสามารถนำมาใช้งานได้ในหลายๆ หน่วยงานเช่น ด้านสาธารณสุข ด้านวิทยาศาสตร์ ด้านความมั่นคง ด้านการเงิน ด้านการบริการประชาชน ด้านเกษตรกรรม ด้านสาธารณูปโภค หรือด้านคมนาคม อาทิเช่น

การใช้เพื่อวิเคราะห์ข้อมูลอุตุนิยมวิทยาในการพยากรณ์อากาศ
การใช้เพื่อวิเคราะห์ข้อมูลการจราจร
การวิเคราะห์ข้อมูลเพื่อลดปัญหาและป้องกันการเกิดอาชญากรรม
การวิเคราะห์ข้อมูลด้านสาธารณสุข เช่น แนวโน้มของผู้ป่วย การรักษาพยาบาล หรือการเกิดโรคระบาด
การวิเคราะห์ข้อมูลด้านน้ำ แหล่งน้ำ ปริมาณฝน และการใช้น้ำ
การวิเคราะห์ข้อมูลการใช้ไฟฟ้า ค่าการใช้พลังงาน
การวิเคราะห์ข้อมูลการทหารและความมั่นคงต่างๆ
การวิเคราะห์ข้อมูลเพื่อตรวจสอบการเสียภาษีของประชาชนหรือบริษัทห้างร้านต่างๆ

ข้อดีของการประยุกต์ใช้เทคโนโลยี Big Data ในภาครัฐสามารถสรุปได้ดังนี้

การใช้เงินงบประมาณและเงินรายได้ต่างๆ ของภาครัฐจะมีประสิทธิภาพมากขึ้น เพราะ Big Data จะช่วยคาดการณ์และวิเคราะห์ได้แม่นยำมากขึ้น
ภาครัฐสามารถที่จะตรวจสอบข้อมูลการใช้งบประมาณได้ดียิ่งขึ้น
ภาครัฐจะมีรายได้มากขึ้นหากมีการนำ Big Data มาใช้วิเคราะห์ข้อมูลการเสียภาษีด้านต่างๆ ว่ามีความถูกต้องเพียงใด
ประชาชนจะได้รับการบริการที่ดีขึ้น เช่นการนำมาแก้ปัญหาจราจร การให้บริการสาธารณสุข การให้บริการสาธารณูปโภค
ประชาชนจะมีคุณภาพชีวิตที่ดีขึ้น เช่นเพิ่มความปลอดภัยโดยการวิเคราะห์แนวโน้มอาชญากรรม การมีสุขภาพที่ดีขึ้นจากการวิเคราะห์ข้อมูลสาธารณสุข
เกิดความร่วมมือกับภาคเอกชนมากขึ้น จากการนำข้อมูลไปใช้
จะมีข้อมูลใหม่ๆ มากขึ้นจากประชาชน (Crowdsourcing) หรือข้อมูลจากอุปกรณ์ Internet of Things
เป็นการสร้างทักษะและผู้เชี่ยวชาญด้านข้อมูลมากขึ้น

อย่างไรก็ตามความท้าทายของการประยุกต์ใช้เทคโนโลยี Big Data ยังอยู่ที่ความร่วมมือของหน่วยงานต่างๆ โดยอาจสรุปปัญหาต่างๆ ที่ควรแก้ไขดังนี้

วัฒนธรรมของหน่วยงานจำนวนมากที่จะรู้สึกหรือคิดว่าข้อมูลเป็นของหน่วยงานตนเอง โดยไม่มีการแชร์ข้อมูลให้กับหน่วยงานภายนอกหรือหน่วยงานอื่นในองค์กรเดียวกัน
คุณภาพของข้อมูลที่อาจไม่สมบูรณ์หรือขาดความถูกต้อง
ปัญหาเรื่องข้อมูลที่เป็นสิทธิส่วนบุคคล หรือความเท่าเทียมกันของการเข้าถึงข้อมูลของภาคประชาชน
การขาดบุคลากรที่มีความสามารถทางด้านเทคโนโลยี Big Data

ดังนั้นสิ่งที่ภาครัฐควรจะต้องเร่งทำเพื่อให้มีการประยุกต์ใช้ Big Data ในองค์กรคือ

พัฒนาความรู้ความเข้าใจในการประยุกต์ใช้เทคโนโลยี Big Data และสร้างวัฒนธรรมการร่วมมือการแชร์ข้อมูล
ออกกฎหมายหรือกฎระเบียบเพื่อให้เกิดการเปิดข้อมูลของภาครัฐ (Open Data)
พัฒนาทักษะบุคลากรให้มีความรู้ด้านเทคโนโลยี Big Data
มีหน่วยงานกลางที่ให้บริการเทคโนโลยี Big Data เพื่อไม่ให้เกิดการลงทุนซ้ำซ้อน และไม่ควรให้ทุกหน่วยงานลงทุนซื้อเทคโนโลยีมากเกินไป

ธนชาติ นุ่มนนท์

IMC Institute

มิถุนายน 2559

23/09/201502/04/2018 thanachart Articles, Big Data

Azure HDInsight หนึ่งในกลยุทธ์ที่เปลี่ยนไปของ Microsoft (มี Link เอกสารการอบรม)

วันก่อนมีโอกาสไปจัดอบรม Big Data using Azure HDinsight ที่ออฟฟิศของ Microsoft มีคนเข้ามาร่วมอบรมจำนวน 50กว่าคน ทำให้มีโอกาสคิดได้ว่าถ้าเป็นสมัยก่อนคงยากที่ผมจะสอนเทคโนโลยีของ Microsoft โดยเฉพาะมาที่ออฟฟิศของเขาเลย เพราะผมสอนและใช้เทคโนโลยีตรงข้ามกับMicrosoft มาตลอด

ผมเขียนโปรแกรมและสอน Java Technology
ผมเป็น Certified Java instructor
ผมใช้เทคโนโลยีฝั่ง Server ที่เป็น Linux, MySQL database และ Java App/Web Server
ผมใช้เครื่อง Mac ใช้ ipad และเลือกใช้ smartphone ที่เป็น Android
ผมทำเอกสารต่างๆโดยใช้ OpenOffice ใช้ Gmail, Google Docs แม้ว่าจะซื้อ account ของOffice 365 แต่ก็ใช้ยามจำเป็น

แต่วันนี้กลยุทธ์ของ Microsoft มาที่ Mobile กับ Cloud ทำให้ผมต้องเข้ามาใช้ Microsoft Azure ที่เป็นระบบ Cloud ของ Microsoft ซึ่งมีทั้ง IaaS และ PaaS การใช้ IaaS โดยมากก็เป็นการใช้ Virtual Server ที่เป็น Ubuntu Linux ในการติดตั้ง Hadoop Clusterสำหรับ PaaS ที่น่าสนใจก็มี HDinsight ซึ่งเป็น Hadoop as a Service ซึ่งเหมาะกับการใช้ Hadoop Cluster ในช่วงระยะเวลาสั้นๆ เพราะเป็นระบบที่ติดตั้งโดยอัตโนมัติและเป็น Hadoop Distribution ของ Microsoft ที่พัฒนาบน Hortonworks เพื่อให้สามารถเชื่อม HDFS กับ Azure Blob

บริการ PaaS อีกอันของ azure ทีน่าสนใจคือ Machine Learning ซึ่งจัดเป็น Analytics as a Service ที่ผู้ใช้สามารถจะเข้ามาทำการวิเคราะห์ข้อมูลโดยใช้ Machine Learning Algorithm ต่างๆอาทิเช่น Linear Regression, K-Mean หรือ Recommendation สำหรับข้อมูลขนาดใหญ่โดยมี ML Studio ที่ผู้ใช้งานสามารถใช้งานโดยง่านได้

สำหรับการอบรมที่ผมไปสอนผมใช้ HDInsight บน Linux จะเห็นได้ว่าวันนี้ Microsoft เป็นระบบที่มีหลากหลาย Platform แม้แต่ HDInsight ก็สามารถที่จะพัฒนาโปรแกรม MapReduce ด้วยภาษา Java ผู้ที่ต้องการเรียนรู้การพัฒนาโปรแกรม Big Data ผมแนะนำที่จะให้ใช้ Azure HDInsight เพราะจะได้ไม่ต้องไปวุ่นวายในการติดตั้ง Hadoop Cluster และ Microsoft เองก็มี Azure Free Trial ให้ใช้ สำหรับการใช้งานจริง HDInsight เหมาะสำหรับการทำงานเพียงระยะสั้นสำหรับผู้ที่ต้องการหา Cluster ใหญ่ๆมาประมวลผล เพราะหลักการ HDInsight คือจะสร้างแล้วปิดระบบไม่ได้ นอกจากจะ Terminate ทิ้ง แต่ถ้าต้องการตั้ง Hadoop Cluster ไว้ระยะยาวบนคราว ผมอยากจะแนะนำให้ติดตั้ง Hadoop Distribution บน Vitual Server จะประหยัดกว่าเพราะสามารถเปิดปิด Server โดยไม่ต้อง Terminate เครื่องได้

สำหรับ Slide ประกอบการบรรยายครั้งนี้ผมมีสองชุด

– ชุดแรกเป็น Big Data using Azure HDInsight โดยสามารถ Download Slide ได้ที่ >> http://tinyurl.com/oco4z8n
– ชุดที่สองเป็นแบบฝึกหัด Azure HDInsight Workshop โดยสามารถ Download Slide ได้ที่ >> http://tinyurl.com/obv34og

ซึ่งการอบรมนี้จะครอบคลุมเนื้อหา การติดตั้ง HDInsight, แนะนำ MapReduce, การใช้โปรแกรม Hive, การใช้โปรแกรมPig และการImport ข้อมูลจากฐานข้อมูล RDBMS โดยใช้ Sqoop

นอกจาก Slide ชุดนี้เราสามารถศึกษาการใช้ HDInsight ได้เพิ่มเติมจาก Tutorial ของMicrosoft Azure ได้ที่ >> http://azure.microsoft.com/en-us/documentation/services/hdinsight/

ผมเองยังได้เขียน Slide ที่เป็นแบบฝึกหัดสำหรับการใช้ Azure Machine Learning โดยมีแบบฝึกหัดทดลองทำ ML 4 เรื่องคือ

Classification เพื่อคาดการณ์ราคารถยนต์โดยใช้ Linear Regression Algorithm
Clustering เพื่อแบ่งกลุ่มประเทศตามการบริโภคอาหารโดยใช้ K-Mean Algorithm
Recommendation แนะนำร้านอาหารจากข้อมูลในอดีต และ
Classification เพื่อคาดการณ์ว่าเที่ยวบินที่มาถึงล่าช้าหรือไม่โดยใช้ Decision Tree Algorithm

โดยสามารถ Download Slide ได้ที่ >> http://tinyurl.com/pkjonbn

สุดท้ายนี้ทาง IMC Institute เองจะเปิดสอนหลักสูตร Azure โดยไม่มีค่าใช้จ่ายอีกครั้งในวันที่ 30 ตุลาคม โดยงานนี้ได้รับการสนับสนุนจาก Microsoft เช่นเคย

ธนชาติ นุ่มนนท์

IMC Institute

กันยายน 2558