การเตรียมเทคโนโลยีและโครงสร้างพื้นฐานขององค์กรเพื่อรองรับ AI

screenshot 2019-01-14 08.52.19

ทุกองค์กรพูดถึง AI (ปัญญาประดิษฐ์) ว่าเป็นแนวโน้มเทคโนโลยีที่จะเข้ามาเปลี่ยนโลกและธุรกิจ บ้างก็เป็นกังวลกับอนาคตของธุรกิจและอุตสาหกรรม บางหน่วยงานที่มีศักยภาพก็เริ่มเตรียมตัวทั้งการเตรียมโครงสร้างพื้นฐานและบุคลากร AI เป็นเรื่องของการนำข้อมูลมาใช้ในการวิเคราะห์ คาดการณ์และพยากรณ์ในเรื่องต่างๆ ซึ่งก็เป็นสิ่งที่มนุษย์ทำอยู่เป็นประจำ แต่ด้วยความสามารถของคอมพิวเตอร์ประกอบกับการใช้ข้อมูลขนาดใหญ่ก็เลยทำให้ทำได้รวดเร็วและมีความแม่นยำกว่ามนุษย์ ดังนั้นงานยากๆที่แต่ก่อนทำไม่ได้จึงสามารถทำได้ดีขึ้นในวันนี้ การประบุกต์ใช้ AI จะประกอบด้วยหลายๆด้านทั้งการวิเคราะห์ข้อมูล ด้านการฟัง ด้านการมองเห็น ด้านภาษา หรือด้านระบบผู้เชี่ยวชาญ ซึ่งองค์ประกอบสำคัญของ AI ก็คือการที่จะต้องมีข้อมูลขนาดใหญ่ (Big Data) แล้วใช้ Machine Learning มาเป็นอัลกอริทึมในการวิเคราะห์ข้อมูลแล้ว ยังต้องมีคอมพิวเตอร์ที่สามารถประมวลผลข้อมูลได้อย่างรวดเร็วด้วย โดยรูปที่ 1 ได้แสดงให้เห็นถึงความสัมพันธ์ของ AI, Big Data และ Machine Learning

 

screenshot 2019-01-14 13.34.15

รูปที่  1 ความสัมพันธ์ของ AI, Big Data และ Machine Learning

จริงๆแล้ว AI ไม่ใช่เรื่องใหม่แต่ที่เริ่มมากล่าวถึงมากขึ้นในตอนนี้ก็เพราะว่าเทคโนโลยีอย่าง Mobile, Social Media และ Internet of Things  (IoT) ทำให้เราสามารถเก็บข้อมูลได้มากขึ้น ทุกที่ ทุกเวลา และทุกอุปกรณ์ ข้อมูลก็มีขนาดใหญ่ขึ้นก็ยิ่งทำให้ AI มีความแม่นยำขึ้น ประกอบกับการมีระบบ Cloud computing ทำให้เราสามารถหาทรัพยากรคอมพิวเตอร์ขนาดใหญ่มาประมวลผลข้อมูลมหาศาลได้ง่ายขึ้น

การเตรียมตัวสำหรับการทำ AI องค์กรจะต้องพิจารณาเริ่มต้นจากความต้องการธุรกืจ ไม่ใช่เริ่มจากด้านเทคโนโลยี  ต้องเข้าใจวัตถุประสงค์และประโยชน์ที่จะนำ AI มาประยุกต์ใช้ในองค์กร หลังจากนั้นจึงพิจารณาด้านโครงสร้างพิ้นฐานสำหรับการทำ AI ซึ่งองค์ประกอบด้านเทคโนโลยีที่สำคัญมีสองส่วนคือ ด้านโครงสร้างพื้นฐานด้านข้อมูลขนาดใหญ่ และเทคโนโลยีด้านการวิเคราะห์ข้อมูลอย่าง Machine Learning และ Deep Learning  การเตรียมโครงสร้างพิ้นฐาน Big Data ผมก็คงจะไม่กล่าวถึงในบทความนี้เพราะได้เขียนไว้บ่อยๆในเรื่องของ Data Lake, Hadoop และ  Cloud Storage

อัลกอริทึมที่ใช้ใน AI ที่มักจะกล่าวถึงคือ Machine Learning ซึ่งก็มีการพัฒนามายาวนานโดยมีการประยุกต์ใช้ในด้านต่างๆอาทิเช่น การทำ Classification, Clustering, Recomendation, Personalization หรือ การทำ Fraud detection นอกจากนี้ยังมีอัลกอริทึมอีกกลุ่มหนึ่งคือ Deep Learningโที่มีความสามารถดีกว่า Machine Learning แบบเดิมๆดยได้ตัดเรื่องของการทำ Feature Engineer ออกเลยทำให้ AI สามารถเรียนรู้จากข้อมูลขนาดใหญ่ได้ดีขึ้นและมีประสิทธิภาพมากขึ้น เลยทำให้ในปัจจุบันมีการนำ Deep learning ในการประยุกต์ใช้งานด้านต่างๆอาทิเช่น Image recognition, Speech Recognition, Language หรือ  Self driving car

การเตรียมเทคโนโลยีด้านอัลกอริทีมเหล่านี้จะต้องเลือกเครื่องมือในการพัฒนา (Toolkit) และเตรียมระบบคอมพิวเตอร์ขนาดใหญ่สำหรับการประมวลผล ซึ่งเมื่อพูดถึงเครื่องมือในการพัฒนาเราอาจต้องใช้เครื่องมือต่างๆอาทิเช่น

  • Machine Learning Toolkit
    • SAS, R, MATLAB, Python (scikit-learn), Spark, Anaconda
  • Deep Learning Toolkit
    • TensorFlow, MXNet, PyTorch, Caffe, CTNK

นอกจากนี้การใช้อัลกอรึทีมโดยเฉพาะในขั้นตอนการทำ Data Training จำเป็นต้องมีระบบคอมพิวเตอร์ขนาดใหญ่ในการประมวลผล ซึ่งองค์กรอาจจำเป็นต้องเตรียมเครื่องคอมพิวเตอร์ในระบบ On-Premise หรืออาจใช้เครื่อง Virtual Server บนระบบ Public cloud เพื่อลดค่าใช้จ่ายในการลงทุนเบื้องต้น แต่หากโจทย์ AI เป็นปัญหาทั่วๆไปที่มีการทำ Data Training มาแล้ว เช่นการทำ Face Recognition, Speech Recognition หรือ Chat Bot องค์กรก็อาจสามารถที่จะใช้ APIs สำเร็จรูปที่ผู้ให้บริการ Public Cloud ค่ายต่างๆได้จัดเตรียมไว้เช่น Vision API ของ Google Cloud Platform  หรือ Recommendation API ของ Microsoft Azure ดังแสดงในรูปที่ 2 ที่เป็นการสรุปเปรียบเทียบบริการ AI Cloud  ของค่ายต่างๆ แต่การใช้ API เหล่านี้ก็อาจมีจุดด้อยในเรื่องของ Vendor Lock-in

49938364_2261204387459828_3708624111711289344_n

รูปที่ 2 เปรียบเทียบ API Services ของ Public Cloud Provider ต่างๆ

กล่าวโดยสรุปการเตรียมโครงสร้างพื้นฐานสำหรับองค์กรในการทำ AI อาจจะต้องครอบคลุมถึงเทคโนโลยีในการเก็บข้อมูลอย่าง Data Lake, Toolkit ในการพัฒนาอัลกอริทึมทางด้าน Machine Learning หรือ Deep Learning  และระบบคอมพิวเตอร์ขนาดใหญ่สำหรับการประมวลผล ซึ่งทั้งหมดที่กล่าวมาอาจใช้บริการของ  Public cloud เพื่อลดค่าใช้จ่ายในการลงทุนเบื้องต้น

ธนชาติ นุ่มนนท์

IMC Institute

 

 

 

ยุคของ Citizen Data Scientist กำลังมา

Screenshot 2019-01-02 10.49.57

เรามักจะได้ยินว่าอาชีพหนึ่งที่เป็นที่ต้องการในยุคนี้คือ Data Scientist (นักวิทยาศาสตร์ข้อมูล) ซึ่งเป็นผู้ที่จะนำอัลกอริทึมทางด้าน Machine Learning มาใช้ในการวิเคราะห์ข้อมูล Data Scientist จะต้องมีความรู้ทางด้านคณิตศาสตร์ การพัฒนาโปรแกรม และองค์ความรู้ทางธุรกิจที่จะใช้ในการวิเคราะห์ข้อมูล อาชีพนี้เป็นที่ต้องการของบริษัทใหญ่ๆจำนวนมาก โดยเฉพาะบริษัทเทคโนโลยีอย่าง Amazon, Google, NetFlix หรือ Uber แม้แต่ในบ้านเราเองก็มีความพยายามที่จะหานักวิทยาศาสตร์ข้อมูลที่มีจบปริญญาโทหรือเอก หรือมีประสบการณ์ในการทำงานด้านนี้ในต่างประเทศเข้ามาทำงาน

บางสถาบันในบ้านเราก็เปิดหลักสูตรระดับปริญญาตรีด้าน Data Scientist ซึ่งก็น่าจะเป็นสาขาที่เรียกยากเพราะผู้ที่จะจบการศึกษาด้านนี้และออกมาทำงานได้ดี ก็ควรจะต้องมีความเชี่ยวชาญด้านคณิตศาสตร์ในระดับสูง มีความสามารถที่จะพัฒนาโมเดลทางคณิตศาสตร์และเข้าใจอัลกอริทึมต่างๆได้เป็นอย่างดี ซึ่งหลักสูตรส่วนใหญ่ในบ้านเราก็อาจจะสอนเน้นไปทางการพัฒนาโปรแกรมหรือไม่ก็ใช้เครื่องมือในการวิเคราะห์ข้อมูลอย่าง Data Visualisation หรือ  Business Intelligent เสียมากกว่า

ดังนั้นจะเห็นได้ว่าการหา Data Scientist  หรือแม้แต่การพัฒนา Data Scientist  ดีๆมาซักคนหนึ่งจึงเป็นเรื่องที่ยาก และทำให้อาชีพนี้ยังขาดแคลนบุคลากร แต่เมื่อไม่กี่ปีที่ผ่านมาบริษัทวิจัย Gartner ก็ได้นิยามคำว่า  Citizen Data Scientist ขึ้นมาโดยระบุว่า “เป็นผู้ที่ใช้โมเดลในการทำ Predictive หรือ prescriptive analytics ในการวิเคราะห์ข้อมูล แต่ไม่ได้เน้นศาสตร์ทางด้านคณิตศาสตร์ กล่าวคือใช้เครื่องมือสำเร็จรูปมาในการวิเคาระห์ข้อมูล โดยทำหน้าที่เสมือนผู้ที่เชื่อมโยงงานของ Business User ที่ต้องการวิเคราะห์ข้อมูลเอง กับ  Data Scientist ทีมีความสามารถด้านการทำ Analytics  ขั้นสูง”

ด้วยเครื่องมือที่ดีในปัจจุบันทำให้เราสามารถที่จะจัดการข้อมูลได้อย่างอัตโนมัติในหลายๆด้านอาทิเช่น

  • Augmented data preparation คือการใช้ Machine Learning  ในการจัดการเตรียมข้อมูลต่างๆได้อย่างอัตโนมัติเช่น การทำ data profiling หรือการปรับปรุงคุณภาพของข้อมูล
  • Augmented data discovery คือการที่ Citizen data scientists สามารถใช้ machine learning ได้อย่างอัตโนมัติในการ ค้นหา ความสัมพันธ์, Pattern หรือ คาดการณ์ข้อมูลได้โดยไม่ต้องสร้างโมเดลคณิตศาสตร์หรือเขียนอัลกอริทึมใดๆ

ทั้งนี้เครื่องมือเหล่านี้มักจะมี visualization tools ในลักษณะ Drag and drop หรือการใช้ภาษาทั่วไปในการสอบถามข้อมูล (natural-language query)  โดยไม่ต้องเขียนโปรแกรม

Gartner ได้กำหนดให้เทคโนโลยีอย่าง Augmented Analytics เป็นหนึ่งในแนวโน้มเทคโนโลยีที่น่าจับตามองในปี 2019 และคาดการณ์ว่าจำนวน citizen data scientists จะเพิ่มขึ้นรวดเร็วกว่า data scientists  ปกติถึง 5 เท่าในปี 2020 และคาดการณ์ว่าการทำ Adavanced Analytics ในปีนี้จะถูกสร้างมาจาก citizen data scientist มากกว่า data scientist ปกติ โดย 40% ของงาน Data Science จะกลายเป็นระบบอัตโตมัติที่ถูกสร้างมาจากเครื่องมือที่ดีขึ้น

ตารางที่ 1  เปรียบเทียบบทบาทหน้าที่ต่างๆ

Screenshot 2019-01-02 11.13.41

ซึ่งหากเราจะสรุปบทบาทหน้าของ Citizen data scientist, Business User และ Data scientist ก็อาจพอสรุปคร่าวๆได้ดังตารางที่ 1 และสรุปท้ายผมขอยกตัวอย่างเครื่องมือในการทำ Augmented Analytics บางตัวที่ Gartner  ระบุไว้เพื่อให้เห็นกันดังภาพข้างล่างนี้

ธนชาติ นุ่มนนท์

IMC Institute

Screenshot 2019-01-02 10.54.58

Screenshot 2019-01-02 10.55.10