เรามักจะได้ยินว่าอาชีพหนึ่งที่เป็นที่ต้องการในยุคนี้คือ Data Scientist (นักวิทยาศาสตร์ข้อมูล) ซึ่งเป็นผู้ที่จะนำอัลกอริทึมทางด้าน Machine Learning มาใช้ในการวิเคราะห์ข้อมูล Data Scientist จะต้องมีความรู้ทางด้านคณิตศาสตร์ การพัฒนาโปรแกรม และองค์ความรู้ทางธุรกิจที่จะใช้ในการวิเคราะห์ข้อมูล อาชีพนี้เป็นที่ต้องการของบริษัทใหญ่ๆจำนวนมาก โดยเฉพาะบริษัทเทคโนโลยีอย่าง Amazon, Google, NetFlix หรือ Uber แม้แต่ในบ้านเราเองก็มีความพยายามที่จะหานักวิทยาศาสตร์ข้อมูลที่มีจบปริญญาโทหรือเอก หรือมีประสบการณ์ในการทำงานด้านนี้ในต่างประเทศเข้ามาทำงาน
บางสถาบันในบ้านเราก็เปิดหลักสูตรระดับปริญญาตรีด้าน Data Scientist ซึ่งก็น่าจะเป็นสาขาที่เรียกยากเพราะผู้ที่จะจบการศึกษาด้านนี้และออกมาทำงานได้ดี ก็ควรจะต้องมีความเชี่ยวชาญด้านคณิตศาสตร์ในระดับสูง มีความสามารถที่จะพัฒนาโมเดลทางคณิตศาสตร์และเข้าใจอัลกอริทึมต่างๆได้เป็นอย่างดี ซึ่งหลักสูตรส่วนใหญ่ในบ้านเราก็อาจจะสอนเน้นไปทางการพัฒนาโปรแกรมหรือไม่ก็ใช้เครื่องมือในการวิเคราะห์ข้อมูลอย่าง Data Visualisation หรือ Business Intelligent เสียมากกว่า
ดังนั้นจะเห็นได้ว่าการหา Data Scientist หรือแม้แต่การพัฒนา Data Scientist ดีๆมาซักคนหนึ่งจึงเป็นเรื่องที่ยาก และทำให้อาชีพนี้ยังขาดแคลนบุคลากร แต่เมื่อไม่กี่ปีที่ผ่านมาบริษัทวิจัย Gartner ก็ได้นิยามคำว่า Citizen Data Scientist ขึ้นมาโดยระบุว่า “เป็นผู้ที่ใช้โมเดลในการทำ Predictive หรือ prescriptive analytics ในการวิเคราะห์ข้อมูล แต่ไม่ได้เน้นศาสตร์ทางด้านคณิตศาสตร์ กล่าวคือใช้เครื่องมือสำเร็จรูปมาในการวิเคาระห์ข้อมูล โดยทำหน้าที่เสมือนผู้ที่เชื่อมโยงงานของ Business User ที่ต้องการวิเคราะห์ข้อมูลเอง กับ Data Scientist ทีมีความสามารถด้านการทำ Analytics ขั้นสูง”
ด้วยเครื่องมือที่ดีในปัจจุบันทำให้เราสามารถที่จะจัดการข้อมูลได้อย่างอัตโนมัติในหลายๆด้านอาทิเช่น
- Augmented data preparation คือการใช้ Machine Learning ในการจัดการเตรียมข้อมูลต่างๆได้อย่างอัตโนมัติเช่น การทำ data profiling หรือการปรับปรุงคุณภาพของข้อมูล
- Augmented data discovery คือการที่ Citizen data scientists สามารถใช้ machine learning ได้อย่างอัตโนมัติในการ ค้นหา ความสัมพันธ์, Pattern หรือ คาดการณ์ข้อมูลได้โดยไม่ต้องสร้างโมเดลคณิตศาสตร์หรือเขียนอัลกอริทึมใดๆ
ทั้งนี้เครื่องมือเหล่านี้มักจะมี visualization tools ในลักษณะ Drag and drop หรือการใช้ภาษาทั่วไปในการสอบถามข้อมูล (natural-language query) โดยไม่ต้องเขียนโปรแกรม
Gartner ได้กำหนดให้เทคโนโลยีอย่าง Augmented Analytics เป็นหนึ่งในแนวโน้มเทคโนโลยีที่น่าจับตามองในปี 2019 และคาดการณ์ว่าจำนวน citizen data scientists จะเพิ่มขึ้นรวดเร็วกว่า data scientists ปกติถึง 5 เท่าในปี 2020 และคาดการณ์ว่าการทำ Adavanced Analytics ในปีนี้จะถูกสร้างมาจาก citizen data scientist มากกว่า data scientist ปกติ โดย 40% ของงาน Data Science จะกลายเป็นระบบอัตโตมัติที่ถูกสร้างมาจากเครื่องมือที่ดีขึ้น
ตารางที่ 1 เปรียบเทียบบทบาทหน้าที่ต่างๆ
ซึ่งหากเราจะสรุปบทบาทหน้าของ Citizen data scientist, Business User และ Data scientist ก็อาจพอสรุปคร่าวๆได้ดังตารางที่ 1 และสรุปท้ายผมขอยกตัวอย่างเครื่องมือในการทำ Augmented Analytics บางตัวที่ Gartner ระบุไว้เพื่อให้เห็นกันดังภาพข้างล่างนี้
ธนชาติ นุ่มนนท์
IMC Institute