ทำไมองค์กรต้องจัดระเบียบข้อมูล ด้วย DATA LAKE

จัดระเบียบข้อมูล

ปฏิเสธไม่ได้ว่าข้อมูลคือทรัพย์สินที่มีค่าที่สุดสำหรับองค์กรในยุคปัจจุบัน การบริหารจัดการและจัดเก็บข้อมูลจำนวนมหาศาลให้อยู่ในรูปแบบที่สามารถนำไปใช้งานได้อย่างมีประสิทธิภาพสูงสุดจึงเป็นสิ่งที่ทุกองค์กรควรให้ความสำคัญ แนวโน้มของเทคนิคการนำข้อมูลมาใช้ทำ Data Analytics ในอนาคตจึงไม่ได้จำกัดเพียง Big Data อีกต่อไป

Gartner บริษัทด้านงานวิจัยและให้คำปรึกษาทางเทคโนโลยีชื่อดังของโลก กล่าวในงานประชุม Gartner Data & Analytics Summit 2021 ว่า ภายในปี 2025 องค์กรกว่า 70% จะเปลี่ยนวิธีการทำข้อมูลแบบ Big Data ไปเป็น Small and Wide Data ซึ่งเป็นการนำข้อมูลสำคัญจำนวนมากจากแหล่งข้อมูลขนาดเล็กมาประยุกต์เข้าด้วยกัน โดยการใช้โมเดลวิเคราะห์ที่ต้องการข้อมูลน้อยลงแต่ให้ข้อมูลเชิงลึกที่มีประสิทธิภาพ จากเทคนิคการทำงานรูปแบบนี้ช่วยให้องค์กรสามารถนำข้อมูลมาตัดใจได้อย่างรอบด้านกว่าเดิม

การบริหารจัดการข้อมูลให้ยั่งยืนที่จะสามารถนำไปใช้ต่อยอดให้เกิดประโยชน์สูงสุด ต้องเริ่มจากการปรับโครงสร้างพื้นฐานของแหล่งเก็บข้อมูลส่วนกลางที่ดีหรือที่เรียกว่าการทำ Data Lake เพื่อเป็นรากฐานที่ดีในการทำ Data Analytics โดยจะกล่าวได้ว่าการมีพื้นฐานการเก็บข้อมูลที่ดีจะช่วยเพิ่มขีดความสามารถในการตัดสินใจในกระบวนการทางธุรกิจซึ่งส่งผลระยะยาวต่อการเติบโตทางธุรกิจ อ้างอิงจากผลการสำรวจของ Aberdeen Group บริษัทวิจัยพฤติกรรมผู้บริโภคในภาค B2B ของประเทศสหรัฐอเมริกาให้ข้อมูลว่า บริษัทที่นำ Data Lake ไปใช้ในกระบวนการทำงาน มียอดเติบโตของรายได้ทั่วไปมากกว่าธุรกิจในรูปแบบเดียวกันถึง 9% ซึ่งเป็นผลมาจากการนำข้อมูลที่จัดเก็บไว้ใน Data Lake ไปวิเคราะห์หาโอกาสและแนวทางที่ทำให้ธุรกิจเติบโต

Data Lake คือการจัดการข้อมูลในระดับองค์กร โดยทำการรวบรวมข้อมูลที่ยังไม่มีการปรับแต่งโครงสร้างหรือข้อมูลดิบไปเก็บไว้ในข้อมูลกลางขององค์กร ซึ่งทำการจัดรูปแบบข้อมูลให้มีคุณภาพเหมาะสมกับการใช้งาน โดย Data Lake เปรียบเสมือนกับแหล่งน้ำดีที่กรองน้ำจากทุกที่มาไว้ที่เดียวกัน พร้อมให้ผู้ใช้งานเลือกสรรนำไปใช้ประโยชน์ได้ง่ายตามความเหมาะสม

องค์กรแบบใดเหมาะที่จะทำ Data Lake

เมื่อแนวโน้มขององค์กรในยุคปัจจุบันถูกขับเคลื่อนด้วยข้อมูล การทำ Data Lake เป็นสิ่งที่ทุกองค์กรควรให้ความสำคัญ คำถามที่น่าสนใจคือ องค์กรจะรู้ได้อย่างไรว่าถึงเวลาที่ต้องมีการเริ่มทำ Data Lake

อ้างอิงจาก McKinsey บริษัทที่ปรึกษาด้านการบริหารชั้นนำของโลก ระบุว่า องค์กรที่จะก้าวเข้าสู่การเป็นองค์กรดิจิทัล หรือ Digital Transformation ควรคำนึงถึงการวางรากฐานของข้อมูลที่ทุกคนในองค์กรสามารถนำไปใช้ได้ เนื่องจาก Digital Transformation คือการเปลี่ยนผ่านกระบวนการทำงานในรูปแบบ Manual มาเป็นแบบ Digital อย่างเต็มรูปแบบ ดังนั้นการเตรียมข้อมูลให้อยู่ในรูปแบบของ Digital เพื่อพร้อมใช้งาน ถือเป็นรากฐานสำคัญ เพื่อผู้ใช้งานสามารถติดตามการทำงานได้ตั้งแต่ต้นจนจบกระบวนการ หรือ End to End Process ซึ่งจะกล่าวได้ว่าหากรากฐานของข้อมูลไม่แข็งแรงพอ การทำ Digital Transformation อาจจะไม่เกิดประสิทธิผลมากเท่าที่ควรจะเป็น

นอกจากนี้การทำ Data Lake ยังช่วยให้คนในองค์กรเข้าถึงข้อมูลที่พร้อมนำไปใช้งานตาม Business Function ของตนเองได้ง่ายขึ้น ซึ่งเป็นการสนับสนุนทิศทางการทำงานในปัจจุบันที่พนักงานทุกคนควรมีแนวคิดเป็น Citizen Data Scientist ที่สามารถประยุกต์ใช้ข้อมูลผ่าน Data Analytics Tools ที่เหมาะสม

การนำ Data Lake มาช่วยยกระดับการดำเนินงานในโรงงาน

ปัจจุบัน Data Lake ถูกนำมาใช้ในหลากหลายส่วนงานเพื่อเพิ่มขีดความสามารถของข้อมูลที่จะสนับสนุนงานในแต่ละฟังก์ชันให้สมบูรณ์แบบมากยิ่งขึ้น ตั้งแต่งานที่ตอบโจทย์ Business Function พื้นฐานของทุกองค์กร เช่น ส่วนงานบัญชีการเงิน งานจัดซื้อจัดจ้าง การตลาด ไปจนถึง Function งานพิเศษตามลักษณะของธุรกิจในแต่ละประเภท

ปัจจุบัน PTT Digital ผู้ให้บริการด้านเทคโนโลยีสารสนเทศ และการสื่อสารครบวงจรอย่างมืออาชีพ ของบริษัทกลุ่ม ปตท. มีทีมงานผู้เชี่ยวชาญซึ่งมีประสบการณ์ในการพัฒนาเทคโนโลยี Data Analytics ของบริษัทฯ หรือที่เรียกว่า PTT Digital Data Analytics Team ประกอบไปด้วยบุคคลากรที่มีความเชี่ยวชาญในการวิเคราะห์ข้อมูลขั้นสูงอย่าง Data Scientist Data Architecture และ Data Analytics Specialist

ทีมงาน PTT Digital Data Analytics ผู้เชี่ยวชาญด้านการพัฒนาเทคโนโลยี Data Analytics นำทีมโดย คุณกรรณิกา กรานเลิศ Data Analytics Spe-cialist (ตรงกลางฝั่งขวา) คุณอลงกต บุรุษอาชาไนย Senior Data Scientist (ที่ 2 จากขวา) คุณเฉลิมทรัพย์ สังขวิจิตร Senior Data Scientist (ที่ 1 จากซ้าย) คุณกุลิสร์ ณ นคร Senior Data Architect (ตรงกลางฝั่งซ้าย) คุณฉันทวัฒน์ รัตนพงศ์พันธ์ Data Architect (ที่ 2 จากซ้าย) และ คุณกิตินันท์ บุญระวี Data Scientist (ที่ 1 จากซ้าย)

ในฐานะผู้ให้บริการด้านเทคโนโลยีสารสนเทศกับบริษัทกลุ่ม ปตท. ซึ่งดำเนินธุรกิจหลักในกลุ่มพลังงาน มีโอกาสได้ทำงานสนับสนุนให้กับโรงงานอุตสาหกรรม เล่าให้ฟังถึงประสบการณ์การนำ Data Lake มาสนับสนุนการทำ Plant Equipment Monitoring ว่า Data Lake สามารถนำมาใช้บริหารจัดการพื้นฐานข้อมูลแบบครบวงจร ตั้งแต่กระบวนการทำงาน ไปจนถึง การ Automate ข้อมูลที่จัดเก็บอยู่ใน Data Lake เข้ามาใช้วิเคราะห์ โดย Data Lake ช่วยลดระยะเวลาการเรียกใช้ข้อมูลจากอุปกรณ์ IoT ที่บริเวณเครื่องจักรมาวิเคราะห์ได้อย่างมหาศาล

จากเดิมที่ต้องใช้เวลาประมาณ 30 นาที ในการรวบรวมข้อมูลจากหลากหลายแหล่งเพื่อนำมาใช้งาน แต่เมื่อนำ Data Lake เข้ามาปรับใช้การดึงข้อมูลจะเหลือเวลาเพียง 1 นาที  ซึ่งอยู่ในระดับที่เรียกว่า “Near real time หรือ การดึงข้อมูลที่มีความเร็วใกล้กับความเป็นจริงมากที่สุด โดยระบบจะสามารถตรวจสอบความผิดปกติได้เร็วขึ้นกว่าเดิม ซึ่งเป็นผลให้ผู้ปฏิบัติงานสามารถตัดสินใจได้เร็วกว่าเดิม จากการนำ Data Lake เข้ามาใช้งานช่วยแก้ปัญหาเดิมที่ระบบไม่รองรับการใช้งานกับข้อมูลจำนวนมากหรือ Big Data นอกจากการนำ Data Lake เข้ามาประยุกต์ใช้งานจะช่วยลดระยะเวลาในการทำงานแล้ว ในแง่ของมุมมองทางธุรกิจยังช่วยคำนวณ Revenue รวมถึง Loss ซึ่งช่วยป้องกันการขาดทุนและเพิ่มประสิทธิภาพด้านการปฏิบัติงาน

เริ่มทำ Data Lake อย่างไรให้ประสบความสำเร็จ

ทีม PTT Digital Data Analytics ให้ความเห็นที่น่าสนใจจากประสบการณ์การทำ Data Lake ว่า ในช่วงเริ่มต้นของการทำ Data Lake องค์กรควรเลือกพัฒนา Data Lake ในโครงการประเภท Quick Wins หรือโครงการที่จะทำให้เกิดความสำเร็จได้ง่ายที่สุด เพื่อเป็นการทดลองให้เห็นแนวทางหลังจากทำ Data Lake ว่าองค์กรสามารถนำข้อมูลที่ได้ไปใช้ประโยช์และวางแผนกับองค์กรในรูปแบบใดได้บ้าง รวมถึงช่วยให้มองเห็นภาพรวมว่าการทำ Data Lake ในองค์กรมีความซับซ้อนอย่างไร นอกจากนี้องค์กรยังควรวางแผนการดำเนินงานแบบ Top-Down Approach คือ มองการนำ Data มาใช้งานจากภาพกว้างของข้อมูลที่มีอยู่ เพื่อให้เห็นวัตุประสงค์และเป้าหมายของการนำไปใช้งาน ซึ่งเป็นแนวทางสำคัญที่จะทำให้การทำ Data Lake ประสบความสำเร็จ

อีกหนึ่งปัจจัยที่สำคัญไม่แพ้กันคือเรื่องของผู้เชี่ยวชาญที่จะเข้ามาดูแลกระบวนการทำ Data Lake ที่มีความซับซ้อนตั้งแต่ต้นจนจบกระบวนการ จากประสบการณ์ดำเนินงาน ทีม PTT Digital Data Analytics  จะเข้าไปสนับสนุนการทำงานตั้งแต่ขั้นตอนการเก็บ Requirement ซึ่งเป็นการทำงานร่วมกันกับองค์กร ซึ่งผู้ใช้งานมั่นใจได้ว่าข้อมูลที่จะนำไปใส่ใน Data Lake ถูกต้องเหมาะสม และตอบโจทย์กับ Business Flow มากที่สุด สำหรับในส่วนของผู้เชี่ยวชาญด้านข้อมูลจะทำหน้าที่ดูแลด้านเทคนิค ตั้งแต่การเลือกใช้เครื่องมือที่นำมาประกอบการวิเคราะห์ เครื่องมือที่นำมาบริหารจัดการข้อมูล ช่วยวิเคราะห์ความพร้อมของข้อมูลที่มีอยู่ในมือและร่วมจัดหาแนวทางปรับแต่งข้อมูลดังกล่าวให้อยู่ในรูปแบบ Ready to Use พร้อมนำไปทำ Data Lake รวมถึงออกแบบสถาปัตยกรรมฐานข้อมูล หรือ Data Architecture ทั้งหมด เพื่อกำหนดรูปแบบและโครงสร้างที่ทำให้การบริหารจัดการข้อมูลมีประสิทธิภาพสูงสุด

องค์กรต้องเตรียมตัวอย่างไรเพื่อให้การทำ Data Lake พัฒนาไม่สะดุด

การทำองค์กรให้เป็น Data Driven อย่างสมบูรณ์แบบ เรื่องของคนเป็นสิ่งสำคัญไม่แพ้กัน องค์กรควรจัดตั้ง Digital Committee หรือคณะกรรมการที่มีหน้าที่ดูแลกระบวนการทำข้อมูลโดยเฉพาะ ครอบคลุมตั้งแต่กระบวนการรวบรวมข้อมูล การตัดสินใจเลือกโครงการ Quick Win ที่จะนำมาทำ Data Lake รวมถึงมีหน้าที่กำหนดสิทธิการเข้าถึงข้อมูลในแต่ละส่วน โดย Digital Committee ถือได้ว่าเป็นอีกหนึ่งส่วนสำคัญที่ทำให้การนำข้อมูลมาขับเคลื่อนองค์กรสมบูรณ์แบบมากที่สุด เพราะในอนาคตข้อมูลจะเป็นตัวตัดสินว่า Business Flow ที่ทำอยู่ถูกต้องหรือไม่

ระยะเวลาของการทำ Data Lake ใน 1 โครงการ โดยเฉลี่ยจะใช้เวลาประมาณ 3-4 เดือน อย่างไรก็ตามการทำ Data Lake ที่ดีต้องมีการปรับปรุงและพัฒนาต่อยอดอยู่เสมอเพื่อให้ได้ข้อมูลที่สมบูรณ์พร้อมใช้กับสถานการณ์ปัจจุบัน ดังนั้นนอกจาก Digital Committee ขององค์กรแล้ว ผู้เชี่ยวชาญด้านข้อมูลที่จะเข้ามาแนะนำการบริหารจัดการข้อมูลเป็นสิ่งที่สำคัญเช่นกัน ดังนั้นหากองค์กรต้องการใช้บริการผู้เชี่ยวชาญด้านข้อมูล ควรพิจารณาเปรียบเทียบให้เหมาะสมกับความต้องการของค์กรในทุกมิติ ทั้งกระบวนการทำงาน ความเข้าใจในธุรกิจ งบประมาณ และขอบเขตความรับผิดชอบ เนื่องจากการทำ Data Lake ให้เกิดความคุ้มค่าในการใช้งานมากที่สุดต้องเป็นการดำเนินงานแบบระยะยาว และมีการพัฒนาต่อยอดไปเรื่อยๆ

การมีโครงสร้างพื้นฐานของข้อมูลที่ดี ก็เปรียบเสมือนกับบ้านที่มีรากฐานที่แข็งแรง การทำ Data Lake ที่ดีช่วยยกระดับขีดความสามารถของข้อมูลในการแข่งขัน ซึ่งเป็นกุญแจสำคัญของกระบวนการตัดสินใจที่จะเป็นตัวกำหนดทิศทางการขับเคลื่อนอนาคตของธุรกิจในยุค Data Driven Business

แหล่งอ้างอิง

  1. ABERDEEN. (2017). ANGLING FOR INSIGHT IN TODAY’S DATA LAKE. Retrieved July 18, 2021, from https://s3-ap-southeast-1.amazonaws.com/mktg-apac/Big+Data+Refresh+Q4+Campaign/Aberdeen

+Research+-+Angling+for+Insights+in+Today’s+Data+Lake.pdf

  1. Gartner. (2021). Gartner Says 70% of Organizations Will Shift Their Focus From Big to Small and Wide Data By 2025. Retrieved Jul 18, 2021, from https://www.gartner.com/en/newsroom/press-releases/2021-05-19-gartner-says-70-percent-of-organizations-will-shift-their-focus-from-big-to-small-and-wide-data-by-2025

3.FORBES Thailand. (2018). สร้างกลุ่มพลเมืองใหม่ “Citizen Data Scientist”. Retrieved Jul 18, 2021, from https://forbesthailand.com/commentaries/insights/สร้างกลุ่มพลเมืองใหม่-c.html

  1. AWS. (2021). Data Lake คืออะไร

จัดเก็บข้อมูลทั้งหมดของคุณไว้ในที่เก็บส่วนกลางได้ทุกขนาด. Retrieved Jul 18, 2021, from https://aws.amazon.com/th/big-data/datalakes-and-analytics/what-is-a-data-lake/

อ่านบทความที่น่าสนใจอื่น ๆ ใน Techhub