ในโลกปัจจุบันธุรกิจต่างๆจะพยายามหาเทคนิคที่สามารถนําความสําเร็จมาสู่บริษัท เช่น ในโลกธุรกิจขนาดย่อมจะสร้างความสัมพันธ์กับลูกค้า โดยสังเกตจากความต้องการ ความชอบและความสนใจของลูกค้า และอาจมีการเรียนรู้ได้จากผลสะท้อนในอดีต ว่าจะทําอย่างไรให้การบริการลูกค่ามีประสิทธิภาพดีขึ้นในอนาคต เช่น บริษัทที่เป็นผู้ออกบัตรเครดิตและธนาคารต่างๆ จะมีขบวนการที่ใช้ Data Mining ให้เป็นประโยชน์ ในการตัดสินใจว่าลูกค่ากลุ่มใดเป็นกลุ่มที่ดี ทําความเข้าใจลูกค่า ช่วยในการแยกประเภทของลูกค้าและจะทํานายกลุ่มของประชากรที่คาดว่าจะมาเป็นลูกค้าในอนาคต เป็นต้น อย่างไรก็ตามการเรียนรู้นั้นต้องมากกว่าการเก็บสะสมข้อมูลอย่างตรงไปตรงมา ซึ่งจะทําให้การทํางานเป็นไป
อย่างมีประสิทธิภาพ
วัฎจักรขั้นตอนการทํางานของ Data Mining วัฎจักรขั้นตอนการทํางานของData Miningประกอบไปด้วย 4 ขั้นตอนหลักๆ ดังนี้
1. การระบุโอกาสทางธุรกิจหรือการระบุปัญหาที่เกิดขึ้นกับธุรกิจ
เป็นการระบุขอบเขตของข้อมูลที่จะนํามาทําการวิเคราะห์เพื่อหาความได้เปรียบทางการตลาดหรือเพื่อนํามาทําการแก้ไขปัญหา
2. ส่วนของ Data Mining
เป็นการนําเทคนิคของ Data Mining ไปใช้ถ้ายทอดหรือทําการเปลี่ยนแปลงข้อมูลดิบให้อยู่ในรูปของข้อมูลที่จะนําไปใช้ได้จริงในทางธุรกิจ
3. การปฏิบัติตามข้อมูล
คือการนําเอาข้อมูลที่เป็นผลลัพธ์ของส่วน Data Mining มาลองปฏิบัติจริงกับธุรกิจ
4. การวัดประสิทธิภาพจากผลลัพธ์
การวัดประสิทธิภาพของเทคนิคของ Data Mining ที่จะนํามาใช้จากผลลัพธ์ ซึ่งสามารถตรวจสอบได้หลายทาง เช่น วัดจากส่วนแบ่งของตลาด วัดจากปริมาณลูกค่า หรือ วัดจากกําไรสุทธิ เป็นต้น จากทั้ง 4 ขั้นตอนที่กล่าวมาข้างต้นคือการนําเอา Data Mining ไปใช้กับระบบทางธุรกิจ โดยแต่ละขั้นตอนจะพึ่งพาอาศัยกันผลลัพธ์จากขั้นตอนหนึ่งจะกลายมาเป็นอินพุทจากอีกขั้นตอนต่อไป ซึ่ง Data Mining จะเปลี่ยนข้อมูลดิบให้เป็นข้อมูลประยุกต์ ดังนั้นการระบุแหล่งข้อมูลที่ถูกต้องจึงเป็นสิ่งที่สําคัญอย่างยิ่งต่อผลลัพธ์ที่ได้จากการวิเคราะห์
งานของ Data Mining (Task of data mining)
ในทางปฏิบัติจริง Data Mining จะประสบความสําเร็จกับงานบางกลุ่มเท่านั้น และต้องอยู่ภายใต้ภาวะที่จํากัดปัญหาเหมาะสมกับการใช้เทคนิคData Miningจะเป็นปัญหาที่ต้องใช้เหตุผลในการแก้ เป็นปัญหาที่เกี่ยวข้องกับเศรษฐศาสตร์และการเงิน ซึ่งจะสามารถจัดรูปแบบของธุรกิจให้อยู่ในรูปแบบของงานทั้ง 6 งานได้ ดังนี้
1. การจัดหมวดหมู่ (Classification)
2. การประเมินค่า (Estimation)
3. การทํานายล่วงหน้า (Prediction)
4. การจัดกลุ่มโดยอาศัยความใกล้ชิด (Affinity Group)
5. การรวมตัว (Clustering)
6. การบรรยาย (Description)
ไม่มีเทคนิคหรือเครื่องมือเพียงชนิดเดียวของData Miningที่เหมาะสมกับงานทุกชนิด งานในแต่ละชนิดก็จะมีเทคนิคของData Miningที่แตกต่างกันไปขึ้นอยู่กับชนิดของงาน
1. การจัดหมวดหมู่
การจัดหมวดหมู่ถือว่าเป็นงานธรรมดาทั่วไปของ Data Mining เพราะการทําความเข้าใจและการติดต่อสื่อสารต่างๆ ก็เกี่ยวข้องกับการแบ่งเป็นหมวดหมู่การจัดแยกประเภทและการแบ่งแยกชนิดโดยการจัดหมวดหมู่ประกอบด้วยการสํารวจจุดเด่นของวัตถุที่ปรากฏออกมา และทําการกําหนด จุดเด่นนั้นๆ เป็นตัวที่ใช้แบ่งหมวดหมู่ งานในการแบ่งหมวดหมู่คือการบ?งบอกลักษณะ โดยการอธิบายจุดเด่นที่เป็นที่รู้จักดีในหมวดหมู่นั้น และเทรนนิ่งเซต (TrAI (Artificial Intelligence) ning Set) ของตัวอย่างในแต่ละหมวดหมู่ ซึ่งมีภาระหน้าที่ในการสร้างโมเดลของบางชนิดที่ไม่สามารถจะจัดหมวดหมู่ของข้อมูลได้ ให้สามารถจัดเป็น หมวดหมู่ได้ ตัวอย่างของการจัดหมวดหมู่ เช่น การจัดหมวดหมู่ของผู้ยื่นขอเครดิต (Credits) เป็นระดับต่ำระดับกลาง และระดับสูง ของความเสี่ยงที่จะได้รับ เป็นต้น
2. การประเมินค่า
การประเมินค่าทางธุรกิจอย่างต่อเนื่องจะก่อให้เกิดผลลัพธ์ที่มีประโยชน์กับธุรกิจ การป้อนข้อมูล
ที่เรามีอยู่เข้าไป เพื่อใช้ในการประเมินสิ่งต่างๆ ที่จะก่อให้เกิดประโยชน์ หรือสําหรับตัวแปรที่เราไม่รู้ค่า แน่นอนเช่น รายได้จากการค่า จุดสูงสุดทางธุรกิจ หรือดุลยภาพของบัตรเครดิต ในทางปฏิบัติการประเมิน ค่าจะถูกใช้ในการทํางานการจัดหมวดหมู่ ตัวอย่างของการประเมินค่าเช่น การประเมินรายได้รวมของ ครอบครัว หรือการประเมินจํานวนบุตรในครอบครัว
3. การทํานายล่วงหน้า
การทํานายล่วงหน้าก็เป็นงานที่มีลักษณะคล้ายกับการจัดหมวดหมู่หรือการประเมินค่า ยกเว้น เพียงแต่จะใช้สถิติการบันทึกของการจัดหมวดหมู่ในการทํานายอนาคตของพฤติกรรมหรือการประเมิน ค่าที่จะเกิดขึ้นในอนาคต ตัวอย่างของงานการทํานายล่วงหน้า เช่น การทํานายการเปลี่ยนแปลงพฤติกรรม ของตลาด หรือการทํานายจํานวนลูกค่าที่จะออกจากธุรกิจของเราใน 6 เดือนข้างหน้า เป็นต้น
4. การจัดกลุ่มโดยอาศัยความใกล้ชิดกัน หรือการวิเคราะห์ของตลาด
งานในการจัดกลุ่มหรือการวิเคราะห์ตลาด คือการตัดสินใจรวมสิ่งที่สามารถไปด้วยกันเข้าไว้ในกลุ่มเดียวกันตัวอย่างของการจัดกลุ่มโดยอาศัยความใกล้ชิดกันหรือการวิเคราะห์ตลาด เช่น การตัดสินใจว่าสิ่งใดบ้างที่จะไปอยู่ด้วยกันอย่างสม่ำเสมอในรถเข็นในซุปเปอร์มาร์เกต
5. การรวมตัว
การรวมตัวคืองานที่ทําการรวมส่วนต่างๆ ในแต่ละส่วนที่ต่างชนิดกันให้อยู่ในรวมกันเป็นกลุ่มย่อย หรือคลัสเตอร์ (Clusters) โดยในแต่ละคลัสเตอร์อาจจะประกอบด้วยส่วนต่างๆที่ต่างชนิดกัน ซึ่งความแตกต่างของการรวมตัวจากการจัดหมวดหมู่คือ การรวมตัวจะไม่พึ่งพาอาศัยการกําหนดหมวดหมู่ล่วงหน้า และไม่ใช้ตัวอย่าง ข้อมูลจะรวมตัวกันบนพื้นฐานของความคล้ายในตัวเอง
6. การบรรยาย
ในบางครั้งวัตถุประสงค์ของData Mining คือต้องการอธิบายความสับสนของฐานข้อมูลในทางที่จะเพิ่มความเข้าใจในส่วนของประชากร ผลิตภัณฑ์ หรือขบวนการให้มากขึ้น
เทคนิคData Miningส่วนใหญ่ต้องการเทรนนิ่งข้อมูลจํานวนมากที่ประกอบด้วยหลายๆ ตัวอย่างเพื่อจะสร้างกฎที่ใช้ในการจัดหมวดหมู่ กฎของความสัมพันธ์ คลัสเตอร์ การทํานายล่วงหน้า ดังนั้นชุดของข้อมูลขนาดเล็กจะนําไปสู่ความไม่น่าไว้วางใจของผลสรุปทีได้ ไม่มีเทคนิคใดเลยที่จะสามารถแก้ปัญหาของData Miningได้ทุกปัญหา ดังนั้นความหลากหลายของเทคนิคจึงเป็นสิ่งที่จําเป็นในการไปสู่วิธีการแก้ปัญหาของData Miningได้ดีที่สุด
เทคนิคของData Mining
การแก้ปัญหาของงานชนิดต่างๆ โดยใช้วิธีData Mining ในแต่ละงานก็จะมีเทคนิคของData Miningที่จะนํามาใช้ได้อย่างเหมาะสม โดยเทคนิคของData Miningนั้นมีมากมาย ส่วนใหญ่มาจากศาสตร์ทาง AI (Artificial Intelligence) หรือศาสตร์อื่นๆ ซึ่งจะขอยกตัวอย่างของเทคนิคที่ถูกใช้กันค่อนข้างแพร่หลาย
1. ดีซีชันทรี ( Decision Tree )
เป็นแบบจําลองที่มีลักษณะคล้ายกับต้นไม้ จะมีการสร้างกฎต่างๆ ขึ้นเพื่อใช้ในการตัดสินใจ ดีซีชันทรีเป็นวิธีที่ได้รับความนิยม เนื่องจากความไม่ซับซ่อนของอัลกอริทึม ทําให้เครื่องมือที่ใช้ในการทําที่วางขายกันอยู่ในท้องตลาด ต่างก็ใช้วิธีนี้ข้อดีของวิธีนี้คือ สามารถตีความและเข้าใจลักษณะของรูปแบบข้อมูล ( Pattern ) ได้ง่าย เพราะ มีการแยกออกเป็นกฎ หรือข้อกําหนดต่างๆ แต่ก็ยังคงมีปัญหาในเรื่องของการให้น้ำหนักความน่าเชื่อถือหรือการให้ค่าน้ำหนักในแต่ละโหนด (node) ซึ่งถ้าให้น้ำหนักผิดไป อาจจะทําให้การตีความผิดไปได้
2. คลัสเตอร์ลิ่ง ( Clustering )
วิธีคลัสเตอร์ลิ่งนี้เป็นวิธีที่อาจจะเรียกว่าเป็นการทําData Miningแบบอ้อมๆ ก็ว่าได้ เนื่องจากการหาผลลัพธ์ในแต่ละครั้งนั้น แม้กระทั่งผู้หายังไม่อาจจะทราบว่าสิ่งที่ต้องการจะหานั้นคืออะไร จําเป็นต้องรอจนกว่าการค้นหาจะทําเสร็จสมบูรณ์จึงจะทราบข้อมูลที่ซ่อนอยู่ เปรียบเสมือนกับการมีข้อมูลจํานวนมากมายอยู่ในตะกร้า แล้วจากนั้นก็มีเวทย์มนต์มาจัดเรียงข้อมูลหน่วยนั้นให้อยู่เป็นกลุ่มก?อนซึ่งทําให้สังเกตลักษณะเด่นที่ซ่อนเร้นอยู่ภายในข้อมูลจํานวนมากหน่วยนั้น
3. นิวรอนเน็ตเวิร์ก ( Neuron Network )
นิวรอนเน็ตเวิร์ก คือระบบทีมีการประมวลผลข้อมูลซึ่งรวมคุณสมบัติของไบโอลอจิกคอลนิวรอนเน็ตเวิร์ก ถูกพัฒนาขึ้นโดยโมเดลทางคณิตศาสตร์ของกระบวนการเรียนรู้ของมนุษย์ (เลียนแบบการทำงานของสมอง) และจะเรียนรู้
จากชุดข้อมูลของชุดความรู้เทรนนิ่งเซท นิวรอนเน็ตเวิร์ก ประกอบด้วยหน่วยความจําจํานวนมากเรียกว่า นิวรอน (Neurons) เซล (Cells) หรือโหนด (Nodes) แต่ละนิวรอนต่อกันโดยคอนเน็กชั้นลิงค์ (Connection Link) ที่มีค่าน้ำหนักของมันอยู่ ในแต่ละการเชื่อมต่อ โดยค่าน้ำหนักจะแสดงรายละเอียดที่เน็ตเวิร์กใช้ในการแก้ปัญหา โดยนิวรอนเนต เวิร์กถูกใช้ในการแก้ปัญหาอย่างกว่างขวาง เช่น การเก็บและการเรียกข้อมูล การแยกประเภทของข้อมูล การเปลี่ยนจากรูปแบบของอินพุท (Input) ให้อยู่ในรูปแบบของเอาท์พุท (Output) ความสามารถในการ ตรวจสอบรูปแบบของข้อมูลที่คล้ายคลึงกับความคิดของมนุษย์ เป็นต้น ถึงแม้ว่านิวรอนเน็ตเวิร์ก สามารถ นําไปประยุกต์ใช้กับงานหลายๆ ชนิดได้อย่างมีประสิทธิภาพ แต่นิวรอนเน็ตเวิร์ก ก็ยังมีข้อเสียอยู่บ้าง ดังนี้
1. นิวรอนเน็ตเวิร์กเป็นวิธีที่ยากต่อการทําความเข้าใจในโมเดลที่ถูกผลิตออกมา
2. นิวรอนเน็ตเวิร์กมีคุณสมบัติที่ไวต่อรูปแบบของอินพุท ถ้าเราแทนข้อมูลด้วยรูปแบบที่ แตกต่างกันก็จะสามารถผลิตผลลัพธ์ที่แตกต่างกันออกมา ดังนั้นการกําหนดค่าเริ่มต้นให้กับ ข้อมูลจึงเป็นส่วนที่มีความสําคัญส่วนหนึ่ง
4. จีเนติก อัลกอริทึ่ม ( Genetic Algorithms : GA )
จีเนติก อัลกอริทึ่ม เป็นทฤษฎีที่จําลองกระบวนการวิวัฒนาการทางธรรมชาติ คือการคัดเลือกทาง ธรรมชาติ และอาศัยพื้นฐานความคิดทางพันธุกรรมในการถ่ายทอดลักษณะต่างๆ ไปยังรุ่นถัดไป ที่ สามารถนํามาพัฒนาใช้ในการหาคําตอบที่เหมาะสมที่สุดของแต่ละปัญหา จีเนติก อัลกอริทึ่มเป็นวิธีการหาคําตอบโดยการพิจารณา และดําเนินการจากกลุ่มของคําตอบของ ปัญหาที่ถูกสร้างขึ้นมาโดยการเข้ารหัส คือการแปลงค่าตัวแปรหรือพารามิเตอร์ (Parameters) ของปัญหา ให้อยู่ในรูปโครงสร้างของโครโมโซม (Cromosomes) ที่กําหนด เพื่อคัดเลือกโครโมโซมคําตอบที่ เหมาะสมสําหรับสร้างวิวัฒนาการของคําตอบให้ดีขึ้นตามกระบวนการทางพันธุศาสตร์ โดยการแลกเปลี่ยนค่าพารามิเตอร์ต่างๆ ระหว่างโครโมโซมที่ถูกคัดเลือกอันจะทําให้คําตอบของปัญหาถูก ปรับปรุงให้ดีขึ้น จีเนติก อัลกอริทึ่มใช้ขั้นตอนหลักๆ 3 กระบวนการในการหาคําตอบที่ใกล้เคียงหรือดีที่สุด ของปัญหาดังนี้
1. การคัดเลือก (Selection) : คัดเลือกอันที่ดีที่สุดซึ่งจริงๆแล้วถ้าผ่านขั้นตอนต่อไปอาจจะเป็นค่าที่ใช้ไม่ได้ก็ได้
2. การสับเปลี่ยนค่าโครโมโซม (Crossover) : ค่าจากขั้นตอนที่ 1. มาสับเปลี่ยน bit เพื่อประเมินแล้วเลือก
3. การกลายพันธุ์ (Mutation) : ค่าจากขั้นตอนที่ 3. นำมากลับ Bit จาก 0 เป็น 1 เพื่อประเมินแล้วกลับไปขั้นตอนที่ 1. อีกครั้ง *
* ถ้าต้องการศึกษารายละเอียดเพิ่มเติมหาอ่านได้จากหนังสือ Artificial Intelligence ซึ่งทุกเล่มจะพูดถึงจีเนติก อัลกอริทึ่ม (Genetic Algorithms)
ถึงแม้ว่าในปัจจุบันจีเนติก อัลกอริทึ่ม ยังเป็นวิธีการที่ไม่ได้แพร่หลายนัก แต่สาขาวิชาทางด้าน จีเนติก อัลกอริทึ่มก็นับว่าเป็นอีกสาขาวิชาหนึ่งที่สนใจและน่าจะเป็นวิธีที่ได้รับความนิยมในอีกไม่กี่ปี ข้างหน้า เนื่องมาจากสามารถนํามาประยุกต์ใช้ได้กับหลายๆ ปัญหารวมทั้งปัญหาทางData Miningอีกด้วย
การเตรียมข้อมูลสำหรับ Data Mining
สิ่งแรกที่ต้องทำคือ เราต้องมาคิดกันก่อนว่าจะนำเทคนิคดาต้าไมน์นิงไปประยุกต์กับด้านใด เพราะเหตุใด และต้องการจะหาความรู้แบบใดออกมาจากการทำดาต้าไมน์นิง
สมมุติว่าเราต้องการนำเทคนิคดาต้าไมน์นิงไปประยุกต์ใช้กับด้านการศึกษา เนื่องมาจากเราได้เล็งเห็นว่าในปัจจุบันตามสถาบันการศึกษาส่วนใหญ่มีข้อมูลต่าง ๆ นิสิตที่ได้ถูกจัดเก็บไว้เป็นเวลานาน แต่ข้อมูลส่วนใหญ่จะได้นำมาใช้ประโยชน์ตอนที่นิสิตศึกษาอยู่เท่านั้น เมื่อนิสิตจบการศึกษาไปแล้วข้อมูลก็จะได้รับการจัดเก็บไว้เป็นอย่างดี โดยที่ไม่ได้นำมาใช้ให้เกิดประโยชน์เท่าที่ควร
เมื่อเราคิดได้แล้วว่าเราต้องการนำเทคนิคดาต้าไมน์นิงไปประยุกต์ใช้กับการศึกษา ต่อมาเราต้องหาเป้าหมาย (Mining Objective) ว่าเราต้องการสืบค้นความรู้แบบใดจากการทำดาต้าไมน์นิงกับข้อมูลนิสิตนี้บ้าง
ถ้าเราต้องการนำเทคนิคดาต้าไมน์นิงเพื่อนำมาช่วยนิสิตในการเลือกสาขาวิชา เช่น สำหรับที่นิสิตคณะวิศวกรรมศาสตร์ จะเห็นได้ว่ามีสาขาวิชาต่าง ๆ มากมายกว่า 10 สาขาวิชา ซึ่งจะเห็นได้ว่า นิสิตส่วนใหญ่เมื่อเข้ามาศึกษาในคณะวิศวกรรมศาสตร์แล้ว พอถึงเวลาที่ต้องเลือกสาขาวิชา นิสิตจะไม่ทราบว่าความสามารถตนเองควรจะเข้าเรียนในสาขาวิชาใดจึงจะมีโอกาสประสบความสำเร็จมากที่สุด ดังนั้น เราจึงเห็นว่าสมควรอย่างยิ่งที่จะนำเทคนิคดาต้าไมน์นิงมาประยุกต์ใช้กับฐานข้อมูลนิสิต โดยความรู้ (knowledge) ที่ได้จากการทำดาต้าไมน์นิงสามารถนำมาใช้ในการช่วยนิสิตเลือกสาขาวิชาได้
เมื่อเราได้เป้าหมายในการทำดาต้าไมน์นิงแล้ว เราก็ต้องมาหาข้อมูลนิสิตกัน สมมุติว่าเราได้ข้อมูลนิสิตย้อนหลังทั้งหมด 10 ปี มีทั้งหมด 2 ส่วน คือ ข้อมูลประวัติส่วนตัวนิสิตดังตารางที่ 1 และข้อมูลการลงทะเบียนเรียนในแต่ละรายวิชาของนิสิตดังตารางที่ 2

ตารางที่ 1 ตัวอย่างข้อมูลประวัติส่วนตัวนิสิต
จากตารางที่ 1 เป็นตัวอย่างข้อมูลประวัติส่วนตัวต่าง ๆ ของนิสิต เช่น รหัสประจำตัวนิสิต ชื่อ เพศสัญชาติ ที่อยู่ วันเกิด สถานภาพทางครอบครัว คะแนนสอบเข้า ผลการเรียนระดับมัธยม สาขาวิชาที่นิสิตศึกษาอยู่ เกรดเฉลี่ยสะสมจนถึงปีปัจจุบัน ฯลฯ

ตารางที่ 2 ตัวอย่างข้อมูลการลงทะเบียนเรียนของนิสิต
จากตารางที่ 2 เป็นตารางข้อมูลการลงทะเบียนของนิสิตในแต่ละรายวิชา ในแต่ละภาคการศึกษา พร้อมทั้งหมู่ที่เรียน และผลการเรียนในรายวิชานั้น ๆ ของนิสิตแต่ละคน
เมื่อเราได้ข้อมูลทั้งหมดแล้ว ขั้นต่อมาก็คือ การเตรียมข้อมูลเพื่อให้พร้อมที่จะนำไปทำดาต้าไมน์นิง ซึ่งแบ่งเป็นขั้นต่าง ๆ ได้ดังนี้
การทำข้อมูลให้สมบูรณ์ (Data Cleaning)
ข้อมูลที่ได้มานั้น เป็นข้อมูลที่ยังไม่สมบูรณ์ที่จะสามารถนำไปใช้ผ่านกระบวนการดาต้าไมน์นิงได้ จึงต้องมีการจัดการข้อมูล การเตรียมข้อมูลเบื้องต้นมีวิธีการดังนี้
เลือกเฉพาะคอลัมน์สำคัญที่คาดว่าจะสามารถนำมาใช้ประโยชน์ได้ และเป็นคอลัมน์ที่มีข้อมูลค่อนข้างครบถ้วนเมื่อเทียบกับจำนวนนิสิต เช่น จากในตารางที่ 1 คอลัมน์สำคัญที่มีข้อมูลค่อนข้างมาก ได้แก่ ข้อมูลรหัสนิสิต ที่อยู่ อายุ เพศ ประวัติครอบครัวโรงเรียน เกรดเฉลี่ยที่จบการศึกษาในมหาวิทยาลัย เป็นต้น ส่วนในบางคอลัมน์ที่มีความสำคัญ แต่มีข้อมูลน้อยมากนั้นจะไม่นำมาพิจารณา เช่น ข้อมูลคะแนนสอบเอ็นทรานซ์ในแต่ละวิชา เหตุผลในการสอบเข้า เป็นต้น
สำหรับคอลัมน์ที่มีค่าสำหรับทุกแถวเป็นค่าเดียวกัน เช่น “สัญชาติไทย” จะเป็นข้อมูลที่ไม่สามารถแยกความแตกต่างของแต่ละแถวได้เลย ดังนั้นในการทำดาต้าไมน์นิงจะไม่สามารถใช้ประโยชน์จากคอลัมน์นี้ ดังนั้น จึงไม่นำคอลัมน์นี้มาพิจารณา
คอลัมน์ที่มีค่าที่ไม่ซ้ำกันเลย จากตารางที่ 1 ได้แก่ ชื่อผู้ปกครอง หมายเลขโทรศัพท์ เป็นต้น ข้อมูลเหล่านี้ไม่สามารถหาแถวที่มีข้อมูลสัมพันธ์กันได้เลย การทำดาต้าไมน์นิงจึงไม่สามารถนำข้อมูลเหล่านี้มาใช้ประโยชน์ได้ ดังนั้นในการทำดาต้าไมน์นิงควรกำจัดคอลัมน์ที่มีข้อมูลไม่ซ้ำกันเลยออก
แก้ไขข้อมูลให้ถูกต้องสมบูรณ์ ได้แก่ การแก้ไขค่าว่างของข้อมูล ซึ่งสามารถแก้ไขได้หลายวิธี เช่น แก้ไขโดยกำจัดข้อมูลที่ในแถวเป็นค่าว่าง (NULL) ยกตัวอย่างเช่น จากในตารางที่ 2 ข้อมูลบางแถวค่าในคอลัมน์ Grade หายไป ซึ่งจะเห็นได้ว่าถ้ามีแต่รหัสนิสิตและวิชาที่ลงทะเบียน โดยที่ไม่มีข้อมูลเกรดแล้ว เราก็ไม่สามารถจะนำแถวนั้นพิจารณาเพื่อหาความสัมพันธ์ที่น่าสนใจได้
ปรับเปลี่ยนข้อมูลให้มีค่าเหมาะสมในการตัดสินใจ เช่น จากตารางที่ 1 ข้อมูลที่เป็นที่อยู่นั้นไม่สามารถที่จะนำมาใช้โดยตรงได้ เพราะจะเป็นปัญหาดังข้อ 1.3 คือ ข้อมูลที่อยู่ของนิสิตแต่ละคนไม่ซ้ำกันเลย ดังนั้นจึงต้องปรับเปลี่ยนข้อมูลให้อยู่ในรูปแบบที่จะสามารถนำไปใช้ได้ ในกรณีนี้จะปรับข้อมูลในคอลัมน์ที่อยู่ของนิสิตให้เป็น Bangkok และ Non-Bangkok อย่างใดอย่างหนึ่ง เป็นต้น
การจัดกลุ่มข้อมูลเพื่อลดการกระจาย (Binning Data) ทั้งนี้เนื่องมาจากข้อมูลของนิสิตมีจำนวนไม่มาก แต่เกรดในแต่ละวิชาที่สามารถมีได้นั้นมีจำนวนมากถึง 10 ตัวด้วยกันคือ {A, B+, B, C+, C, D+ ,D, F, W, I} ดังนั้นเพื่อลดการกระจายของข้อมูลเกรดของนิสิตที่มีมากเมื่อเทียบกับจำนวนนิสิต จึงได้จัดกลุ่มเกรดของนิสิตเป็น 3 กลุ่ม ดังนี้ คือ เกรด {A, B+, B} เป็น High, เกรด {C+, C} เป็น Medium และ เกรด {D+, D, F, W, I} เป็น Low
จากตารางที่ 1 ที่เป็นข้อมูลประวัตินิสิต เราได้นำมาปรับเปลี่ยนข้อมูลบางส่วนเพื่อให้สมบูรณ์ขึ้น ได้แก่
- การตัดคอลัมน์ที่ไม่จำเป็นในการทำดาต้าไมน์นิงออก เช่น คอลัมน์ชื่อนิสิต เพราะชื่อนิสิตแต่ละคนไม่สามารถนำมาทำดาต้าไมน์นิงได้
- คัดเลือกเฉพาะคอลัมน์ที่คาดว่าจะสามารถนำมาทำดาต้าไมน์นิงได้ เช่น คัดเลือกคอลัมน์โรงเรียน แต่เนื่องจากชื่อโรงเรียนของนิสิตแต่ละคนมีมากมาย เราจึงต้องปรับข้อมูลโรงเรียนให้เป็นกลุ่มอย่างสมดุลเพื่อที่จะได้สามารถนำไปใช้ในการทำดาต้าไมน์นิงได้ เช่น แบ่งข้อมูลโรงเรียนเป็น 2 กลุ่ม คือ สอบเทียบ และจบจากมัธยมศึกษาปีที่ 6 โดยกำหนดว่า School = 0 คือจบการศึกษาจากมัธยมศึกษาปีที่ 6 และ School = 1 คือสอบเทียบ เป็นต้น
- ปรับเปลี่ยนข้อมูลในบางคอลัมน์เพื่อให้สามารถนำไปไมน์นิงได้ เช่น คอลัมน์ที่อยู่ ปรับข้อมูลให้เป็นกลุ่มว่านิสิตอยู่ในกรุงเทพฯ หรือไม่ เป็นต้น
ผลที่ได้จากการทำข้อมูลจากตารางที่ 1 ให้สมบูรณ์แสดงดังตารางที่ 3
ผลที่ได้จากการทำข้อมูลจากตารางที่ 1 ให้สมบูรณ์แสดงดังตารางที่ 3

ตารางที่ 3 ตัวอย่างข้อมูลประวัตินิสิตที่ทำให้สมบูรณ์
จากตารางที่ 3 ที่เป็นตารางข้อมูลการลงทะเบียนเรียนของนิสิต เราได้ปรับข้อมูลบางส่วนให้สมบูรณ์ขึ้น ได้แก่
· การตัดบางคอลัมน์ที่ไม่น่าสนใจที่จะนำมาทำดาต้าไมน์นิงออก เช่น คอลัมน์หมู่การเรียน
· จับกลุ่มข้อมูลในคอลัมน์เกรดเพื่อลดการกระจายของข้อมูล เป็นต้น
ผลที่ได้จากการทำข้อมูลในตารางที่ 2 ให้สมบูรณ์แสดงดังตารางที่ 4

ตารางที่ 4 ตัวอย่างข้อมูลการลงทะเบียนเรียนของนิสิตที่ทำให้สมบูรณ์
การคัดเลือกข้อมูล (Data Selection)
เราจำเป็นต้องคัดเลือกเฉพาะข้อมูลนิสิตที่สามารถนำมาใช้ประโยชน์ได้ เช่น
คัดเลือกข้อมูลนิสิตเฉพาะนิสิตคณะวิศวกรรมศาสตร์ และรายวิชาที่นิสิตเรียนทั้งหมดเป็นรายวิชาเดียวกัน เนื่องมาจากถ้าข้อมูลที่เราได้มานั้นย้อนหลังไปถึง 10 ปี ข้อมูลรายวิชาในอดีตอาจเป็นคนละตัวกับรายวิชาในปัจจุบัน เนื่องมาจากความแตกต่างของหลักสูตรการศึกษาในแต่ละปี ดังนั้นเราต้องคัดเลือกเฉพาะข้อมูลนิสิตในปีที่มีรายวิชาแบบเดียวกันเท่านั้น
คัดเลือกข้อมูลนิสิตในภาควิชาที่สามารถนำมาทำดาต้าไมน์นิงได้ เช่น คัดเลือกมา 6 สาขาวิชาหลัก ได้แก่ สาขาวิชาวิศวกรรมเคมี สาขาวิชาวิศวกรรมโยธา สาขาวิชาวิศวกรรมคอมพิวเตอร์ สาขาวิชาวิศวกรรมไฟฟ้า สาขาวิชาวิศวกรรมอุตสาหการ และสาขาวิชาวิศวกรรมเครื่องกล สาเหตุที่เลือก 6 สาขาวิชาดังเนื่องมาจากทั้ง 6 สาขาวิชาเป็นสาขาวิชาหลักที่มีทั้งนิสิตและข้อมูลต่าง ๆ อยู่มากพอสมควรที่จะสามารถนำมาวิเคราะห์ได้ สำหรับสาขาวิชาอื่น ๆ ที่ไม่ได้คัดเลือกมานั้นอาจเป็นสาขาวิชาที่เพิ่งก่อตั้งมาได้ไม่นานนัก ทำให้ข้อมูลไม่เพียงพอในการนำมาวิเคราะห์ อาจทำให้มีข้อผิดพลาดได้ในการทดสอบได้
หลังจากที่ทำตามขั้นตอนข้างต้นทั้งหมดแล้ว จะได้ข้อมูลที่มีความสมบูรณ์มากขึ้น
การปรับเปลี่ยนรูปแบบข้อมูล (Data Transformation)
จากตารางที่ 4 จะเห็นได้ว่าข้อมูลอยู่ในระดับรายวิชา เพื่อให้ได้ตรงตามเป้าหมายที่ต้องการจะศึกษาพฤติกรรมและลักษณะของนิสิตแต่ละคน เราจะต้องแปลงข้อมูลให้อยู่ในระดับของนิสิต โดยแบ่งกลุ่มของวิชาต่าง ๆ ที่ลงทะเบียนตามรหัสนิสิต และคอลัมน์แทนรายชื่อวิชาต่าง ๆ จากนั้นจะนำตารางที่ 3 และ 4 มารวมกัน ทำให้ได้เป็นตารางข้อมูลนิสิตขั้นต้นที่แต่ละแถวของตารางแสดงทั้งประวัติส่วนตัวของนิสิตและผลการเรียนของนิสิตในแต่ละรายวิชา เพื่อที่เราจะได้สามารถนำตารางนี้ไปปรับเปลี่ยนเพื่อให้เหมาะสมกับเทคนิคต่าง ๆ ของดาต้าไมน์นิงต่อไป ผลลัพธ์ที่ได้ทั้งหมดแสดงได้ดังตารางที่ 5

ตารางที่ 5 ตัวอย่างตารางข้อมูลนิสิตที่ขั้นต้น
จากข้อมูลในตารางที่ 5 นี้ถือได้ว่าเป็นข้อมูลเบื้องต้นในรูปแบบสมบูรณ์ที่พร้อมจะนำไปทำดาตาไมน์นิงแล้ว แต่เราอาจต้องปรับเปลี่ยนรูปแบบของข้อมูลเพื่อให้เหมาะสมกับแต่ละเทคนิคของดาต้าไมน์นิงที่เราจะเลือกใช้
สรุปData Miningคือการค้นหาความสัมพันธ์และรูปแบบทั้งหมด ซึ่งมีอยู่จริงในฐานข้อมูล แต่ได้ถูก ซ่อนไว้ภายในข้อมูลจํานวนมาก โดยData Miningจะเหมาะสมกับการ แก้ปัญหาบางชนิดเท่านั้น เช่น ปัญหาที่ต้องใช้เหตุผลในการแก้ หรือปัญหาที่เกี่ยวข้องกับเศรษฐศาสตร์ และการเงิน เป็นต้น Data Miningมีเทคนิคต่าง ๆ ที่ใช้ในการแก้ปัญหาอยู่หลายเทคนิค ซึ่งจะไม่มีเทคนิคใดเลยที่ สามารถแก้ปัญหาของData Miningได้ทุกปัญหา ดังนั้นความหลากหลายของเทคนิคเป็นสิ่งที่จําเป็นที่จะนําไปสู่วิธีการแก้ปัญหาที่ดีที่สุด ของData Mining
0 ความคิดเห็น:
แสดงความคิดเห็น