Big Data Platform บน Hybrid/Multi Cloud แนวทางในการวางระบบ Big Data ขององค์กร

Screenshot 2019-03-14 09.57.10

วันก่อนไปบรรยายมีคนถามผมว่าจะติดตั้งระบบ Big Data ในองค์กร ใช้โซลูชั่นของใครดี จะทำเป็นระบบ On-Premise หรือควรใช้ Public Cloud

คงต้องอธิบายว่าระบบ  Big Data จะประกอบไปด้วยเทคโนโลยีอยู่ 4 ด้านคือ  Data Ingestion/Collection, Data Storage, Data Processing และ Data Visualisation และหลักการทำ  Big Data คือเน้นการสร้าง Data Lake ที่เราจะต้องนำข้อมูลดิบที่มีปริมาณมหาศาลมาเก็บไว้ในระยะยาว ซึ่งอาจเป็นข้อมูลธุรกรรมต่างๆ ข้อมูล IoT ซึ่งข้อมูลเหล่านี้มีปริมาณเห็นหลายสิบล้าน หรือจำนวนหลาย TeraByte ทั้งนี้ขึ้นอยู่กับประเภทธุรกิจ บางธุรกิจเช่น Telecom อาจมีบริมาณเป็นหลาย TB ต่อวัน หรือธนาคารก็อาจเป็นจำนวนพันล้านเรคอร์ดต่อปี

การที่ต้องเก็บข้อมูลจำนวนมากและการเก็บข้อมูลต้องพร้อมที่จะประมวลผลในเวลารวดเร็ว จึงเป็นความท้าทายที่ต้องหา Storage ขนาดใหญ่ ซึ่งต้องขยายได้อย่างรวดเร็ว มีราคาถูก และมีความเสถียร ก็เลยเป็นไปได้ยากที่เราจะพัฒนาระบบ Hadoop แบบ On-Premise แล้วในอนาคตต้องขยายระบบไปเรื่อยๆเพื่อจะเก็บข้อมูลทั้งหมด ดังนั้นแนวทางที่ดีคือการเก็บข้อมูลขนาดใหญ่ไว้บน  Public Cloud Storage ที่จะตอบโจทย์เหลือราคาความเสถียรและขนาดการเก็บได้ดีกว่า เช่นการใช้ Amazon S3, Azure Data Lake Storage (ADLS) และ Google Cloud Storage เป็นต้น  แล้วก็นำข้อมูลที่จะเป็นที่อาจมีความสำคัญอย่างมากที่ไม่อยากนำไปเก็บออกนอกองค์กรมาใส่ไว้ใน Storage ของ Hadoop HDFS ที่เราอาจติดตั้งระบบ Cluster ขนาดเหมาะสมไว้ในองค์กร (On-Premise) แต่ไม่จำเป็นต้องเป็นระบบที่ใหญ่มากนัก

ในแง่ของการประมวลผลข้อมูล (Data Processing) เราสามารถที่จะใช้ Hadoop On-Premise มาทำการประมวลโดยผ่านเทคโนโลยีอย่าง Spark, Hive หรือเครื่องมืออื่นๆ แต่ความท้าทายก็อาจจะอยู่ที่เมื่อต้องการประมวลผลข้อมูลที่ใหญ่มากๆเช่น การทำ Machine Learning กับข้อมูลเป็นสิบหรือร้อยล้านเรคอร์ด กรณีนี้เราจำเป็นต้องการระบบ Cluster ที่มี CPU จำนวนมากซึ่งระบบ On-Premise ไม่สามารถจะรองรับได้ จึงอาจต้องใช้ Services ของ Public Cloud เช่น  AWS EMR, Google DataProc, Azure HDinsight ที่เราสามารถกำหนด CPU จำนวนมากได้ หรือบางครั้งก็อาจใช้บริการประมวลผลอื่นๆที่มีอยู่บน Public cloud ซึ่งสามารถช่วยในการประมวลผลอย่างรวดเร็วได้อย่างเช่น Google BigQuery, Azure ML, AWS Athena ก็จะยิ่งทำให้ได้ประสิทธิภาพดีขึ้น ข้อสำคัญการประมวลผลแบบนี้ราคาขึ้นอยู่กับการเวลาในการใช้งานซึ่งถูกกว่าติดตั้งระบบ On-Premise ขนาดใหญ่มากๆ

ในด้านการดึงข้อมูลเข้า Storage  (Data Ingestion) ก็คงจะต้องพิจารณาว่าต้นทางของข้อมูลอยู่ที่ใดและ Storage อยู่ที่ใด ถ้าข้อมูลที่จะดึงเข้าจำนวนมากอยู่ในองค์กรก็ควรที่จะตั้งระบบแบบ On-Premise หรือ ถ้าอยู่ภายนอกก็อาจใช้ Public cloud service ส่วนการเลือกใช้เครื่องมือด้าน Visualisation ที่อาจต้องมีทั้งสองระบบ โดยระบบ On-Premise ใช้กับการแสดงข้อมูลภายในองค์กรผ่าน Desktop ส่วนกรณีแสดงผลผ่านเว็บหรืออินเตอร์เน็ตอาจพิจารณาใช้ Public cloud โดยรูปที่ 1 ได้สรุปแนวทางการทำ Big Data Platform โดยทาง Hybrid/Multi Cloud ตามที่อธิบายไว้ข้างต้น

Screenshot 2019-03-23 13.25.45

รูปที่ 1 ตัวอย่างระบบ Big Data  บน Hybrid/Multi Cloud

แนวทางการติดตั้งระบบ  Big Data ที่ดีควรเริ่มจากการทำบน Public Cloud เพื่อความรวดเร็วในการดำเนินงานและลดค่าใช้จ่าย เมื่อเริ่มเห็นผลก็อาจมีการติดตั้งระบบ On-Premise ที่มีขนาดเหมาะสม แล้วมีการ Transfer ข้อมูลไปมากันทั้งสองระบบ โดยเน้นให้ Public cloud เก็บข้อมูลขนาดใหญ่และประมวลผลขนาดใหญ่ ส่วน Hadoop On-Premise เน้นข้อมูลที่สำคัญและต้องการประมวลผลในองค์กร ซึ่งแนวโน้มของผู้ผลิตในระบบ On-Premise ต่างๆเช่น Cloudera หรือ Hortonworks ก็เน้นไปสู่ Hybrid/Multi Cloud ดังแสดงตัวอย่างดังรูปที่ 2

Screenshot 2019-03-23 13.26.19

รูปที่ 2 ตัวอย่างโซลูชั่นของ Hortonworks ทีเน้น Multi-Cloud

สุดท้ายผมได้ทำตารางข้างล่างมาเปรียบเทียบระหว่างระบบ On-Premise กับ Public Cloud Service ต่างๆมาให้เพื่อพิจารณาเลือกใช้บริการต่อไป

ธนชาติ นุ่มนนท์

IMC Institute

Screenshot 2019-03-23 13.26.37Screenshot 2019-03-23 13.26.49

 

ผลการสำรวจการใช้ Cloud Computing ทั่วโลกปี 2019

Screenshot 2019-03-14 09.57.10

ผมตามผลการสำรวจ Cloud Computing ของบริษัท RightScale ทุกปี เพื่อจะได้ทราบแนวโน้มการใช้ Cloud Computing ในด้านต่างๆของผู้ใช้ในองค์กรรูปแบบต่างๆทั่วโลก สำหรับในปีนี้ทาง RightScale ได้ออกรายงาน State of the cloud 2019 from Flexera™ มาเมื่อปลายเดือนกุมภาพันธ์ โดยมีการสำรวจข้อมูลจากกลุ่มตัวอย่าง 786 ราย โดยเป็นองค์กรขนาดใหญ่ 456 รายและ SME 330 ราย โดย 59% มาจากทวีปอเมริกาเหนือ ยุโรป 16% และเป็นเอเซียแปซิฟิก 19% โดยกลุ่มตัวอย่างมาจากอุตสาหกรรมต่างๆดังรูปที่ 1

Screenshot 2019-03-14 10.04.45

รูปที่ 1 กลุ่มตัวอย่างแบ่งตามประเภทอุตสาหกรรม

ผลการสำรวจมีข้อมูลที่น่าสนใจหลายๆด้านที่ผมอยากสรุปมาสั้นๆดังนี้

  • 94% ของผู้ตอบแบบสอบถาม กำลังใช้ Cloud โดย 69% ใช้  Hybrid Cloud, 22% ใช้ Public cloud อย่างเดียว และ 3% ใช้ Private cloud อย่างเดียว
  • 84% ใช้ Cloud อยู่หลายราย  (Multi-cloud)
  • ค่าใช้จ่าย Public Cloud ขององค์กรต่างๆขนาดใหญ่จะสูงกว่า 2.4 ล้านเหรียญสหรัฐต่อปี หรือประมาณเดือนละ 200,000 เหรียญ แต่ถ้าเป็น SME มากกว่า 50% จะมีรายจ่ายต่ำกว่า 120,000 ล้านเหรียญสหรัฐต่อปี หรือประมาณเดือนละ 10,000 เหรียญ ดังแสดงในรูปที่ 2
  • การใช้ Public cloud  โตขึ้นอย่างมากถึง 24%  ขนาดที่ Private cloud โตเพียง 8%
  • ความท้าทายของการ Cloud ที่องค์กรให้ความสำคัญสามเรื่องคือ Governance, ขาดความเชี่ยวชาญและ การควบคุมค่าใช้จ่าย ทั้งนี้ขึ้นอยู่กับประสบการณ์การใช้ ดังแสดงในรูปที่ 3
  • AWS ยังเป็น Public cloud ที่มีผู้ใช้มากที่สุด และ Azure มีการเติบโตขึ้นอย่างมาก (โดยปีที่แล้วมีผู้ใช้ 45% แต่โตขึ้นเป็น 52% ส่วน AWS ลดลงจาก 64% เหลือ 61%) ดังแสดงในรูปที่ 4
  • ผู้ใช้บริการ PaaS ส่วนใหญ่จะเลือกใช้ Relational Database as a Service และ Push notification ขนาดที่การใช้บริการ Serverless , Stream processing และ Machine learning  เติบโตขึ้นมากกว่า 45% ดังแสดงในรูปที่ 5
  • VMware sphere ยังเป็น Private Cloud ที่นิยมมากที่สุดตามด้วย OpenStack ดังแสดงในรูปที่ 6
  • Docker ยังเป็น Container ที่คนใช้มากที่สุด แต่ Kubernate โตขึ้นอย่างมาก ดังแสดงในรูปที่ 7

ผู้สนใจสามารถอ่านรายงานฉบับเต็มได้ที่เว็บไซต์ของ RightScale >> https://www.rightscale.com/blog/cloud-industry-insights/cloud-computing-trends-2019-state-cloud-survey

ธนชาติ นุ่มนนท์

IMC Institute

 

Screenshot 2019-03-14 10.16.42

รูปที่ 2 ค่าใช้จ่าย Public Cloud ต่อปีขององค์กรต่างๆ

Screenshot 2019-03-14 10.22.11

รูปที่ 3 ความท้าทายของการใช้ Cloud แบ่งแยกตามระดับประสบการณ์การใช้

Screenshot 2019-03-14 10.27.33

รูปที่ 4 ส้ดส่วนการใช้ Public Cloud ของผู้ให้บริการต่างๆ

Screenshot 2019-03-14 10.30.58

รูปที่ 5  PaaS Public Cloud แบ่งตามประเภทการให้บริการ

Screenshot 2019-03-14 10.36.41

รูปที่ 6 สัดส่วนการใช้ Private Cloud

Screenshot 2019-03-14 10.39.29

รูปที่ 7 สัดส่วนการใช้ Container

 

ยุคของ Citizen Data Scientist กำลังมา

Screenshot 2019-01-02 10.49.57

เรามักจะได้ยินว่าอาชีพหนึ่งที่เป็นที่ต้องการในยุคนี้คือ Data Scientist (นักวิทยาศาสตร์ข้อมูล) ซึ่งเป็นผู้ที่จะนำอัลกอริทึมทางด้าน Machine Learning มาใช้ในการวิเคราะห์ข้อมูล Data Scientist จะต้องมีความรู้ทางด้านคณิตศาสตร์ การพัฒนาโปรแกรม และองค์ความรู้ทางธุรกิจที่จะใช้ในการวิเคราะห์ข้อมูล อาชีพนี้เป็นที่ต้องการของบริษัทใหญ่ๆจำนวนมาก โดยเฉพาะบริษัทเทคโนโลยีอย่าง Amazon, Google, NetFlix หรือ Uber แม้แต่ในบ้านเราเองก็มีความพยายามที่จะหานักวิทยาศาสตร์ข้อมูลที่มีจบปริญญาโทหรือเอก หรือมีประสบการณ์ในการทำงานด้านนี้ในต่างประเทศเข้ามาทำงาน

บางสถาบันในบ้านเราก็เปิดหลักสูตรระดับปริญญาตรีด้าน Data Scientist ซึ่งก็น่าจะเป็นสาขาที่เรียกยากเพราะผู้ที่จะจบการศึกษาด้านนี้และออกมาทำงานได้ดี ก็ควรจะต้องมีความเชี่ยวชาญด้านคณิตศาสตร์ในระดับสูง มีความสามารถที่จะพัฒนาโมเดลทางคณิตศาสตร์และเข้าใจอัลกอริทึมต่างๆได้เป็นอย่างดี ซึ่งหลักสูตรส่วนใหญ่ในบ้านเราก็อาจจะสอนเน้นไปทางการพัฒนาโปรแกรมหรือไม่ก็ใช้เครื่องมือในการวิเคราะห์ข้อมูลอย่าง Data Visualisation หรือ  Business Intelligent เสียมากกว่า

ดังนั้นจะเห็นได้ว่าการหา Data Scientist  หรือแม้แต่การพัฒนา Data Scientist  ดีๆมาซักคนหนึ่งจึงเป็นเรื่องที่ยาก และทำให้อาชีพนี้ยังขาดแคลนบุคลากร แต่เมื่อไม่กี่ปีที่ผ่านมาบริษัทวิจัย Gartner ก็ได้นิยามคำว่า  Citizen Data Scientist ขึ้นมาโดยระบุว่า “เป็นผู้ที่ใช้โมเดลในการทำ Predictive หรือ prescriptive analytics ในการวิเคราะห์ข้อมูล แต่ไม่ได้เน้นศาสตร์ทางด้านคณิตศาสตร์ กล่าวคือใช้เครื่องมือสำเร็จรูปมาในการวิเคาระห์ข้อมูล โดยทำหน้าที่เสมือนผู้ที่เชื่อมโยงงานของ Business User ที่ต้องการวิเคราะห์ข้อมูลเอง กับ  Data Scientist ทีมีความสามารถด้านการทำ Analytics  ขั้นสูง”

ด้วยเครื่องมือที่ดีในปัจจุบันทำให้เราสามารถที่จะจัดการข้อมูลได้อย่างอัตโนมัติในหลายๆด้านอาทิเช่น

  • Augmented data preparation คือการใช้ Machine Learning  ในการจัดการเตรียมข้อมูลต่างๆได้อย่างอัตโนมัติเช่น การทำ data profiling หรือการปรับปรุงคุณภาพของข้อมูล
  • Augmented data discovery คือการที่ Citizen data scientists สามารถใช้ machine learning ได้อย่างอัตโนมัติในการ ค้นหา ความสัมพันธ์, Pattern หรือ คาดการณ์ข้อมูลได้โดยไม่ต้องสร้างโมเดลคณิตศาสตร์หรือเขียนอัลกอริทึมใดๆ

ทั้งนี้เครื่องมือเหล่านี้มักจะมี visualization tools ในลักษณะ Drag and drop หรือการใช้ภาษาทั่วไปในการสอบถามข้อมูล (natural-language query)  โดยไม่ต้องเขียนโปรแกรม

Gartner ได้กำหนดให้เทคโนโลยีอย่าง Augmented Analytics เป็นหนึ่งในแนวโน้มเทคโนโลยีที่น่าจับตามองในปี 2019 และคาดการณ์ว่าจำนวน citizen data scientists จะเพิ่มขึ้นรวดเร็วกว่า data scientists  ปกติถึง 5 เท่าในปี 2020 และคาดการณ์ว่าการทำ Adavanced Analytics ในปีนี้จะถูกสร้างมาจาก citizen data scientist มากกว่า data scientist ปกติ โดย 40% ของงาน Data Science จะกลายเป็นระบบอัตโตมัติที่ถูกสร้างมาจากเครื่องมือที่ดีขึ้น

ตารางที่ 1  เปรียบเทียบบทบาทหน้าที่ต่างๆ

Screenshot 2019-01-02 11.13.41

ซึ่งหากเราจะสรุปบทบาทหน้าของ Citizen data scientist, Business User และ Data scientist ก็อาจพอสรุปคร่าวๆได้ดังตารางที่ 1 และสรุปท้ายผมขอยกตัวอย่างเครื่องมือในการทำ Augmented Analytics บางตัวที่ Gartner  ระบุไว้เพื่อให้เห็นกันดังภาพข้างล่างนี้

ธนชาติ นุ่มนนท์

IMC Institute

Screenshot 2019-01-02 10.54.58

Screenshot 2019-01-02 10.55.10

 

 

Hybrid Cloud Computing แนวโน้มของระบบไอที

Screenshot 2018-10-14 13.55.59

สัปดาห์ที่ผ่านมา (9-11 ตุลาคม 2018) ทีมงาน IMC Institute  พาผู้เข้าอบรม 16 ท่านไปดูงาน Cloud Expo Asia 2018 ที่ประเทศสิงคโปร์ โดยนับเป็นปีที่ 5 ที่ทางเราพาผู้เข้าอบรมไป ซึ่งนอกเหนือจากการเข้าชมงานก็ยังได้พาผู้เข้าอบรมไปเยียมชมบริษัท Oracle ด้วย

43462155_1228836723930332_1337121326103527424_n

สำหรับในปีนี้ทางผมเองได้เข้าไปร่วมบรรยายในงานนี้ด้วยในหัวข้อ Hybrid Cloud Strategies Drive Demand for Colocation ซึ่งผู้สนใจสามารถดูสไลด์การบรรยายของผมได้ที่ https://tinyurl.com/hybrid-cloud-imc โดยในการบรรยายนี้ผมได้กล่าวนำให้เห็นว่าจากการมาเยียมชมงาน Cloud Expo Asia ต่อเนื่องมาทุกปี ได้เห็นการเปลี่ยนแปลงของงานจากเดิมที่ปีแรกๆจะเน้นที่ ผู้ให้บริการ Public cloud ค่ายต่างๆอย่าง  Amazon, Google, Micrsoft มาออกงาน ในปีหลังๆก็จะเห็นเน้นไปที่การทำโซลูชั่นอย่าง IoT, Big Data หรือ AI โดยใช้ Cloud Computing มากขึ้น และในปัจจุบันก็เน้นไปที่การทำ Multi-cloud มากขึ้น ซึ่งก็สอดคล้องกับผลสำรวจของ Rightscale ปีล่าสุดที่ชี้ให้เห็นว่า ระบบไอทีในองค์กรต่างๆจะเป็น  Multi-cloud  มากขึ้น โดยมีแนวโน้มที่จะเป็น Hybrid cloud มากกว่าที่จะเป็น Multiple public cloud หรือ   Multiple private cloud ดังแสดงในรูปที่ 1 นอกจากนี้ก็ยังพบว่าจากการสำรวจผู้ใช้ทั่วโลกเกือบ 1000 ราย เกือบ 96% จะใช้ Cloud computing  ในปัจจุบันโดยเกือบ 71% จะตอบว่าจะใช้  Hybrid cloud ดังแสดงในรูปที่ 2

Screenshot 2018-10-14 14.09.25

รูปที่ 1 ผลการสำรวจการใช้  Cloud ขององค์กรขนาดใหญ่  [จาก RightScale]

Screenshot 2018-10-14 14.14.55

รูปที่ 2 ผลการสำรวจการใช้  Cloud   [จาก RightScale]

แม้ Public cloud รายใหญ่ๆจะมีประโยชน์ในด้านเงินลงทุนที่ค่อนข้างต่ำ เพราะเป็นการคิดค่าใช้จ่ายตามการใช้งาน และยังมีจุดเด่นที่มีบริการใหม่ๆมากมายอาทิเช่นด้าน  Big data, IoT หรือ AI ที่จะทำให้หน่วยงานพัฒนาระบบไอทีใหม่ๆได้รวดเร็วขึ้น แต่เมื่อมีการใช้งานมากๆค่าใช้จ่ายก็อาจสูงขึ้นกว่าการพัฒนาระบบ Private cloud เองหรือสูงกว่าการใช้ On-premise นอกจากนี้ก็อาจมีปัญหาเรื่องความปลอดภัยหรือด้าน Compliance ประเด็นที่สำคัญอีกด้านก็คืออาจเจอปัญหาเรื่อง  Vendor Lock-in

ดังนั้นจึงเป็นไปได้ยากที่องค์กรจะใช้เฉพาะ  Public cloud และแนวโน้มด้านไอทีเราคงจะต้องเห็นการผสมผสานกันระหว่างการใช้ Private cloud หรือระบบ  On-premise กับการใช้ Public cloud โดยเราอาจแบ่งระบบไอทีขององค์กรได้เป็นสองกลุ่ม

  • กลุ่มที่ 1 ระบบ Application ดั้งเดิม หรือระบบที่มีความสำคัญยิ่งยวด รวมถึงระบบ Core ขององค์กร ซึงพวกนี้ก็จะเป็นกลุ่มที่ใช้ Private cloud/On-premise
  • กลุ่มที่ 2 ระบบ Application ใหม่ๆ ที่ต้องการความรวดเร็วในการพัฒนา หรือที่ใช้เทคโนโลยีใหม่ๆในการพัฒนา กลุ่มพวกนี้จะใช้ Public cloud

ซึ่งองค์กรสามารถที่จะดูแลระบบไอทีทั้งสองนี้ในรูปแบบของ Bi-model IT กล่าวคือทั้งสองระบบจะแยกกันอยู่ หรือจะเป็น  Single infrastructure ก็ได้ โดยในรูปแบบหลังจะมีผลดีกว่าเพราะสามารถจะย้าย  workload ต่างๆได้ง่ายขึ้น โดยทั้งสองระบบจะเชื่อมต่อผ่าน VPN ดังรูปที่ 3

Screenshot 2018-10-14 14.31.25.png

รูปที่ 3 Hybrid Cloud Model

ทั้งนี้เราสามารถใช้  Hybrid Cloud ได้หลายรูปแบบอาทิเช่น

  • Isolated use cases คือการวางระบบ  Application ที่ต่างกันแยกในส่วนของ Private หรือ  Public cloud ที่ต่างกัน
  • Coexisting use cases  คือการที่เราอาจเอา Application เดียวกันมาติดตั้งไว้ในทั้ง Private และ Public cloud  เช่นกรณีของ  Cloud bursting ที่เราจะใช้ Private cloud สำหรับกรณีของ Fixed load แล้วในช่วงของ Peak load ก็ขยายไปใช้ Public cloud หรือกรณีของ Big data  ที่อาจมีข้อมูลเก็บไว้ในทั้งสองระบบ และเมื่อต้องการประมวลผลข้อมูลขนาดใหญ่ก็อาจไปใช้ Public cloud
  • Supporting application use cases  คือตัวอย่างของการพัฒนา Applicationใหม่ๆที่อาจต้องการใช้เครื่องมือใน Public cloud เช่นการใช้ Machine learning

การพัฒนาระบบขององค์กรสู่ Hybrid cloud จะมีขั้นตอนสำคัญที่ต้องพิจารณาคือ

  1. วางแผนระบบ  Application ต่างๆว่าระบบใดเหมาะกับ  Cloud โมเดลแบบไหน เช่น Private, Public หรือ  On-Premise
  2. ต้องพยายามเลือก Cloud Framework หนึ่งเดียวเพื่อลดความวุ่นวายในการดูแลลหลายระบบ อาทิเช่นอาจต้องตัดสินใจเลือก  VMWare, OpenStack, Azure stack หรือ ระบบอื่นๆ
  3. ต้องปรับเปลี่ยนระบบไอทีในองค์กรที่เป็น On-premise ให้เป็นระบบที่ทันสมัย โดยอาจเป็น Private cloud โดยต้องยึดกับ Framework ที่เลือกไว้
  4. พยายามเลือก Public cloud หรือ Cloud service provide ที่มี Framework ตามที่เลือกไว้และทำการเชื่อมต่อกับ Private cloud ผ่าน  VPN

ทั้งหมดก็เป็นการสรุปการบรรยายของผมสั้นๆที่กล่าวในงานดังกล่าว

ธนชาติ นุ่มนนท์

IMC Institute

การวิเคราะห์ Big Data กับสิทธิของข้อมูลส่วนบุคคล

Screenshot 2018-08-05 11.29.12

เมื่อวันศุกร์ที่ผ่านมาผมมีโอกาสได้ไปบรรยายในงานครบรอบ 10 ปีสถาบันคุ้มครองเงินฝากในหัวข้อเรื่อง Digital Disruptive Technology in Financial Services โดยได้ชี้เห็นว่าเทคโนโลยีที่กำลังเข้ามามีผลกระทบกับอุตสาหกรรมการเงินอย่างมากที่สุดอย่างหนึ่งก็คือ Big data analytics  สิ่งที่น่าสนใจก็คือว่า การที่เรานำเงินไปฝากไว้กับสถาบันการเงิน ไม่เพียงแต่จะมีเงินที่เข้ามาฝากไว้ที่สถาบันการเงิน แต่ยังมีข้อมูลต่างๆอีกเป็นจำนวนมาก อาทิเช่น ข้อมูลรายละเอียดส่วนบุคคล (ชื่อ,  ที่อยู่, อายุ, สถานที่ทำงาน), ข้อมูลด้านการเงิน (เงินฝาก, เงินกู้, รายได้, รายจ่าย) หรือข้อมูลธุรกรรมการเงินต่างๆอีกมากมาย ก็เลยอยากตั้งคำถามว่า ข้อมูลเหล่านี้เป็นของใคร ของลูกค้าหรือของสถาบันการเงิน

Screenshot 2018-08-05 12.59.06

บางท่านอาจเข้าใจว่าเป็นของสถาบันการเงิน ผมอยากให้ลองคิดถึงข้อมูลทางการแพทย์โดยเฉพาะข้อมูลการรักษาพยาบาลของเรา ข้อมูลเหล่านั้นเป็นของโรงพยาบาล,ของเราหรือของรัฐบาล ผมคิดว่าหลายๆคนคงตอบว่า เป็นข้อมูลส่วนบุคคลของเรา เราคงไม่ยินยอมถ้าทางโรงพยาบาลหรือแพทย์จะเอาข้อมูลเหล่านั้นไปทำ Big Data Analytics มาทำการวิเคราะห์หรือคาดการณ์อะไรต่างๆกับตัวเราโดยที่เราไม่ทราบล่วงหน้า หากโรงพยาบาลอยู่ๆจะนำประวัติการรักษาของเรามาวิเคราะห์และมาคาดการณ์ว่าเราจะเป็นโรคนั้นโรคนี้โดยที่เราไม่ได้อนุญาตล่วงหน้าเราคงไม่ยินดี และถือว่าเป็นการละเมิดสิทธิส่วนบุคคลอย่างมาก ดังนั้นการวิเคราะห์ข้อมูลในวงการแพทย์จะต้องไม่สามารถที่จะสืบกลับมาได้ว่าเป็นข้อมูลของใคร และถ้าเป็นการคาดการณ์เรื่องของโรคร้ายต่างๆก็น่าจะเป็นการวิเคราะห์ภาพรวม ยกเว้นเสียแต่ว่าคนไข้จะยินยอมให้ใช้ข้อมูลส่วนบุคคลไปวิเคราะห์หรือทำ  Predictive analytics กับคนไข้เฉพาะราย

big-data-analytics-banking-industry-video

เช่นกันโดยหลักการข้อมูลที่อยู่สถาบันการเงินก็น่าจะเป็นข้อมูลของลูกค้า โดยหลักการสถาบันการเงินก็ไม่น่าที่จะมีสิทธิเอาข้อมูลลูกค้ามาวิเคราะห์เป็นรายบุคคลโดยไม่ขออนุญาตว่าจะทำการวิเคราะห์อะไร ไม่ควรที่จะมาวิเคราะห์ว่า

  • ลูกค้ามีรายได้เท่าไร มีเงินเพียงพอหรือไม่
  • ลูกค้าต้องการจะกู้ยืมหรือไม่
  • ลูกค้ามีรายจ่ายอย่างไร ซื้อบ้านกี่หลัง ผ่อนรถกี่คน
  • ลูกค้าไปใช้จ่ายเงินอย่างไร ประเภทใด ร้านค้าใด
  • ลูกค้าชำระค่าน้ำ ค่าไฟ ค่าโทรศัพท์เดือนเท่าไร
  • ลูกค้าเดินทางไปต่างประเทศบ่อยไหม

ข้อมูลเหล่านี้เป็นข้อมูลส่วนบุคคล ถ้าลูกค้าไม่ได้ร้องขอสินเชื่อให้ทำการวิเคราะห์ สถาบันการเงินก็ไม่สมควรที่จะนำไปทำการวิเคราะห์โดยไม่ได้รับความยินยอมจากลูกค้า หรืออยู่ดีๆจะมาแนะนำว่าผลการวิเคราะห์ลูกค้าใช้จ่ายอย่างไร จะต้องการกู้ยืมเงินไหมเพราะคิดว่าเรามีรายได้ไม่พอใช้

บางท่านอาจแย้งว่าลูกค้าได้เคย  consent อนุญาตให้ใช้ข้อมูลตั้งแต่เปิดบัญชีแล้ว จริงๆแล้วการ  consent น่าจะเป็นการใช้ข้อมูลโดยทั่วไป และไม่เคยมีการบอกมาชัดเจนว่าจะนำไปใช้อะไร ทำให้นึกถึงกรณีกฎระเบียบด้านข้อมูลอันใหม่ของ EU เรื่อง General Data Protection Regulation (GDPR) ได้เขียนไว้ชัดว่าข้อมูลต่างๆเหล่านี้เป็นของประชาชนและย่อมมีสิทธิที่จะทราบว่าผู้เก็บข้อมูลจะเอาไปทำอะไร แม้แต่การ Consent: ที่ต้องขอความยินยอมจากเจ้าของข้อมูลต้องเข้าใจง่าย และต้องระบุอย่างชัดเจนว่าจะนำข้อมูลไปใช้ทำอะไร เพื่อวัตถุประสงค์ใด หรือสิทธิของเจ้าของข้อมูล (ประชาชน) ที่จะขอดูข้อมูล ขอให้ลบและเคลื่อนย้าย

ข้อมูลที่เราเก็บไว้ในสถาบันการเงิน แตกต่างกับข้อมูลใน Social media อย่าง Facebook หรือ  Google พวก Social media เหล่านั้นลูกค้ามีสิทธิที่จะให้หรือไม่ให้ข้อมูลก็ได้ จะบอกที่อยู่ อายุ ชื่อจริง หรือเบอร์มือถือหรือไม่ก็ได้ แต่ข้อมูลที่อยู่กับสถาบันการเงินลูกค้าต้องใช้ข้อมูลจริง และเป็นข้อมูลส่วนบุคคลด้านการเงิน ที่สถาบันการเงินเก็บไว้ ซึ่งถือว่าเป็นข้อมูลที่สำคัญยิ่งและมีความอ่อนไหว (sentitive data) ไม่ควรต่อการให้ใครก็ได้นำมาวิเคราะห์ต่างๆโดยไม่ได้รับอนุญาต แต่เดิมลูกค้าอาจไม่เคยเห็นความสำคัญของข้อมูลเหล่านี้แต่ในปัจจุบันเราเริ่มเห็นกันแล้วว่าสินทรัพย์ที่สำคัญอีกอย่างหนึ่งที่เราฝากไว้กับสถาบันการเงินนอกเหนือจากตัวเงินก็คือข้อมูล เรามีสถาบันคุ้มครองเงินฝากของเรา แล้วใครละจะมาคุ้มครองข้อมูลของเราไม่ให้ถูกละเมิด

ธนชาติ นุ่มนนท์

IMC Institute

 

ขั้นตอนการทำโครงการ Big Data

Screenshot 2018-05-03 16.00.42

คำว่า Big Data กำลังเป็นศัพท์เทคนิคที่น่าสนใจในมุมของผู้บริหารองค์กรหลายๆแห่งทั้งภาครัฐและเอกชน ซึ่งนอกจากว่าผู้บริหารจำนวนหนึ่งจะมาใช้เป็นศัพท์ในการตลาดแล้วบางครั้งก็ทำให้ราวเหมือนกับว่ามันจะเป็นเทคโนโลยีวิเศษที่จะสร้างประโยชน์ให้กับองค์กรอย่างมากมาย

มีคนเคยบอกความหมายของคำว่า Big data ในเชิงคบขำไว้ว่า “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, so everyone claims they are doing it... ”  (Prof. Dan Ariely ) คำพูดก็คล้ายกับที่ประเทศเราในตอนนี้ที่ทุกคนต่างก็พูดถึง Big Data บางทีข้อมูลเล็กนิดเดียวก็บอกว่าทำ Big Data บางครั้งก็สั่งงานให้ฝ่ายเทคโนโลยสารสนเทศไปเริ่มทำโครงการ Big Data ทั้งๆที่ Big Data น่าจะเริ่มจากกลยุทธ์ไม่ใช่เริ่มที่เทคโนโลยี แล้วบางคนก็บอกว่าทำโครงการ Big Data  เสร็จแล้ว

Untitled (1)

รูปที่ 1 ขั้นตอนการทำโครงการ Big Data

เมื่อวันก่อนผมมีโอกาสเขียนรูปภาพแสดงขั้นตอนง่ายๆให้เห็นว่าเราจะเริ่มทำโครงการ Big Data ได้อย่างไร  โดยมีขั้นตอนดังแสดงในรูปที่ 1

โครงการ  Big Data ต้องเริ่มต้นด้วยการทำกลยุทธ์ข้อมูล (Data strategy) ที่ผู้บริหารหน่วยงานต่างๆในองค์กรมากำหนดร่วมกัน ซึ่งกลยุทธ์ที่ดีไม่ได้ดูที่ว่ามีข้อมูลอะไรอยู่ในองค์กร แต่อยู่ที่ว่าธุรกิจมีเป้าหมายอะไร และข้อมูลใดที่จะช่วยให้บรรลุเป้าหมายนั้น

ซึ่งเมื่อได้กลยุทธ์แล้วเราจะเริ่มเข้าใจได้ว่าลักษณะข้อมูลที่ต้องการใช้เป็นอย่างไร ทั้งนี้ข้อมูลที่ต้องการจะนำมาใช้อาจแบ่งเป็นสองกลุ่มคือ

  • ข้อมูลที่มีอยู่ในปัจจุบันอยู่แล้ว แต่เราไม่เคยนำมาวิเคราะห์ ข้อมูลลักษณะนี้เราเรียกว่า Dark data ซึ่งก็อาจเป็นข้อมูลขนาดใหญ่ในองค์กร
  • ข้อมูลที่ยังไม่มี แต่คิดว่าน่าจะเป็นประโยชน์ ทั้งนี้อาจต้องไปหาข้อมูลเหล่านี้มาจากแหล่งอื่นๆเช่น พันธมิตร หรืออาจต้องซื้อข้อมูล บางครั้งอาจต้องหาเทคโนโลยีเช่น IoT เข้ามาช่วยในการเก็บซึ่งอาจต้องใช้เวลากว่าจะสะสมหรือหาข้อมูลได้

หากกลยุทธ์ต้องการข้อมูลกลุ่มหลังก็อาจต้องใช้เวลากว่าที่จะเริ่มทำโครงการได้ หรือบางครั้งเราอาจไม่มีข้อมูลเหล่านั้นเลยก็เป็นไปได้ ซึ่งสุดท้ายเราอาจจะต้องปรับกลยุทธ์ใหม่เพื่อให้ได้ข้อมูลที่มีอยู่แล้วเพื่อความรวดเร็วในการทำโครงการ

เมื่อเรามีข้อมูลที่เพียงพอคำถามถัดมาก็คือว่า ข้อมูลเหล่านั้นเป็นไปตามนิยามของ Big data ที่ว่า Volume, Variety, Velocity, Varacity จริงหรือไม่

  • ถ้าใช่ เราก็อาจต้องลงทุนโครงสร้างพื้นฐานด้าน Big data เช่นการจัดหา Data Lake อย่าง Hadoop หรือ Cloud storage
  • ถ้าไม่ใช่ บางครั้งโครงสร้างพื้นฐานที่มีอยู่อย่าง  ระบบ Database  ที่เป็น RDBMS ก็อาจเพียงพอและไม่จำเป็นจะต้องจัดหาระบบอย่าง  Data Lake

กรณีที่ข้อมูลที่ต้องการไม่ใช่ Big Data ก็คงต้องวิเคราะห์ต่อว่า จะมีการทำ Predictive Analytic โดยการใช้ Machine Learning หรือ เพราะถ้ามี ก็อาจจำเป็นต้องจัดหาเครื่องมือในการทำเรื่องนี้มาใช้ เพราะภาษา SQL ที่ใช้กับระบบ Database ไม่สามารถจะมาใช้ทำ Predictive Analytic ได้

แต่ถ้าข้อมูลไม่ใช่ Big data มีแค่จำนวนเป็นหลักสิบล้านและไม่ได้เข้าข่ายนิยามอะไรที่เป็น Big data แลัวก็ยังไม่มีการทำ Predictive Analytic  เน้นแต่การสอบถามข้อมูล (Data query) ทำ Dashboard เป็นโครงการทำ Data warehouse และ Business Intelligence แต่ผู้บริหารอยากเรียกว่า Big data เราก็คงต้องเข้าใจว่าเป็นอย่าง Prof. Dan Ariely ว่า ก็ยอมๆไปแล้วกันครับ เพราะผู้บริหารต้องการใช้คำว่า Big data ในการตลาด

สุดท้ายถ้าเรามีข้อมูลขนาดใหญ่และต้องการทำ Predictive analytics เราก็อาจใช้ทีม Data science ที่เข้าใจ Machine learning มาช่วยงาน และอาจต้องมีการแสดงผลผ่าน Data visualisation ซึ่งเราก็จะอาจจะได้ผลลัพธ์ตามกลยุทธ์ที่กำหนดไว้ในตอนต้น แต่โครงการทั้งหมดก็ต้องใช้เวลาในการทำงาน ตั้งแต่รวบรวมข้อมูล การทำโครงสร้างพื้นฐาน และการวิเคราะห์ข้อมูล ไม่มี Quick win ในการทำโครงการ  Big data ครับ

ธนชาติ นุ่มนนท์

IMC Institute

พฤษภาคม 2561

 

 

Mini Project ในหลักสูตร Big data certification

Screenshot 2018-04-02 08.54.14

เมื่อวันเสาร์ที่ 20 มกราคม ทาง IMC Institute ได้จัดให้ผู้เรียนหลักสูตร Big Data Certification รุ่นที่ 6 ที่เรียนกันมาสี่เดือนตั้งแต่เดือนกันยายนปีที่แล้ว รวม 120 ชั่วโมง ได้มานำเสนอ Mini-project ของตัวเองโดยมีผู้นำเสนอสามกลุ่มคือ

  • กลุ่ม Anime Recommendation ที่มีการนำข้อมูลการดูการ์ตูนจำนวน 7.8 ล้านเรคอร์ดจากหนังการ์ตูน 12,294 เรื่องจาก Kaggle มาทำ Recommendation โดยใช้ ALS algorithm, ทำ Clustering โดยใช้ K-Means algorithm และมีการวิเคราะห์จำนวนการดูหนังแบบ Real-time โดยใช่ KafKa และ Spark streaming (Slide การนำเสนอสามารถดูได้ที่ >> Anime slide)
  • กลุ่ม Telecom churn analysis ที่มีการวิเคราะห์การย้ายค่ายโทรศัพท์มือถือของผู้ใช้ โดยการนำข้อมูลมาวิเคราะห์ดูลักษณะของการย้ายค่าย ทำ Visualisation แสดงผลการวิเคราะห์ต่างๆและมีการทำ  Predictive analytic โดยใช้ Decision Tree Algorithm (Slide การนำเสนอสามารถดูได้ที่ >> Telecom churn slide)
  • กลุ่ม Crime Analysis เป็นการนำข้อมูลอาชญากรรมในเมือง Chicago จำนวน 6 ล้านเรคอร์ด มาทำ Classification โดยใช้ Decision Tree Algorithm เพื่อจะวิเคราะห์ว่าอาชญกรรมกรณีไหน ในสถานการณ์และวันอย่างไร ที่มีโอกาสที่จะจับผู้ร้ายได้สูง   (Slide การนำเสนอสามารถดูได้ที่ >> Crime analysis slide)

Screenshot 2018-01-21 13.22.52

ผมพบกว่านำเสนอของทั้งสามกลุ่ม เข้าใจหลักการของการทำ Big data ได้เป็นอย่างดีตั้งแต่ การทำความเข้าใจปัญหา การเตรียมข้อมูล การใช้เทคโนโลยีและเครื่องมือต่างๆ และรวมถึงการใช้ Algorithm ในการวิเคราะห์ แต่ผัญหาที่เรามักจะเห็นมนบ้านเรากลับเป็นเรื่องของข้อมูลที่ยังมีไม่มากทำให้ขาดโอกาสที่จะใช้ความรู้ในการวิเคราะห์ข้อมูลของบ้านเรามากกว่า ซึ่งหากมีข้อมูลคนที่ผ่านหลักสูตร Big data certification เหล่านี้จำนวน 6 รุ่นแล้ว ก็น่าจะเป็นกำลังสำคัญที่เข้ามาช่วยพัฒนาการวิเคราะห์ข้อมูลขนาดใหญ่ในบ้านเราได้ในอนาคต

สำหรับ IMC Institute เราก็จะจัดงานเพื่อให้ผู้ทีผ่านการอบรมหรือบุคคลทั่วไปได้ลองมาแข่งกันทำ Mini project ในลักษณะนี้ ในโครงการที่ชื่อว่า Big data hackathon โดยตั้งใจจะจัดขึ้นในวันที่ 24-25 กุมภาพันธ์นี้ โดยไม่มีค่าใช้จ่ายใดๆ ซึ่งผู้สนใจสามารถติดต่อเข้าร่วมโครงการสามารถดูรายละเอียดการสมัครได้ที่ www.imcinstitute.com/hackathon ภายในวันที่ 16 กุมภาพันธ์ พ.ศ. 2561

ธนชาติ นุ่มนนท์

IMC Institute

มกราคม 2561