Data mining คือ
การทำเหมืองข้อมูล หรือเรียกอีกอย่างหนึ่งว่า
การค้นหาความรู้ที่อยู่ในฐานข้อมูล เป็นเทคนิคในการค้นหารูปแบบ แนวทาง
และความสัมพันธ์ที่ถูกซ่อนอยู่ในชุดข้อมูลจำนวนมาก โดยอาศัยหลักสถิติ
การรู้จำและหลักคณิตศาสตร์ และเป็นศาสตร์แขนงหนึ่งทาง AI
AI ย่อมาจากคำว่า ปัญญาประดิษฐ์ (Artificial
Intelligence) หรือ เอไอ (AI) หมายถึงความฉลาดเทียมที่สร้างขึ้นให้กับสิ่งที่ไม่มีชีวิต
ปัญญาประดิษฐ์เป็นสาขาหนึ่งในด้านวิทยาการคอมพิวเตอร์ และวิศวกรรมเป็นหลัก
แต่ยังรวมถึงศาสตร์ในด้านอื่นๆอย่างจิตวิทยา ปรัชญา หรือชีววิทยา
ซึ่งสาขาปัญญาประดิษฐ์เป็นการเรียนรู้เกี่ยวกับกระบวนการการคิด การกระทำ
การให้เหตุผล การปรับตัว หรือการอนุมาน และการทำงานของสมอง
ทำไมต้อง data mining
ในสภาวะเศรษฐกิจปัจจุบันที่มีความผันผวนและมีการแข่งขันสูง
การพยายามรักษาฐานลูกค้าเก่าและเพิ่มกลุ่มลูกค้าใหม่เป็นสิ่งที่ทุกธุรกิจขาดไม่ได้
กลยุทธ์ที่นิยมนำมาใช้คือการทำ CRM (Customer Relationship Management) เป็นวิธีการบริหารความสัมพันธ์ระหว่างองค์กรกับลูกค้า
โดยเริ่มจากการเก็บข้อมูลประวัติลูกค้า
ทั้งประวัติส่วนบุคคลและประวัติการซื้อสินค้า (transaction) จากนั้นทำการวิเคราะห์พฤติกรรมการบริโภคสินค้าของลูกค้า
ทำการจัดกลุ่มและประเมินว่าลูกค้าแต่ละกลุ่มมีผลต่อกำไรมากน้อยเพียงใด
พัฒนาคุณภาพสินค้าและบริการ มีการเสนอโปรโมชันสินค้าและบริการที่ตรงใจ
เพื่อตอบโจทย์ของลูกค้าให้ตรงใจมากที่สุด โดยเทคนิคดาต้าไมน์นิ่งได้เข้ามามีบทบาทสำคัญสนับสนุนงานด้าน
CRM โดยใช้ในการหาความสัมพันธ์การซื้อสินค้าของลูกค้า
เพื่อนำไปวิเคราะห์และช่วยในงานด้านส่งเสริมการขาย ใช้ในการจำแนกลูกค้า
หรือใช้ในการบอกแนวโน้มการเลิกใช้สินค้าของลูกค้าชั้นดีที่กำลังจะจากไป
ดังจะเห็นได้ว่าห้างสรรพสินค้าขนาดใหญ่ต่างๆ
ไม่ว่าจะเป็น Tesco Lotus, BigC, Carrefour, Central, The Mall ต่างก็ออกบัตรสมาชิก
(Club Card, BigCard, i-Wish Card, …) ให้กับลูกค้าเพื่อนำไปใช้เป็นส่วนลดในการซื้อสินค้าหรือได้รับเงินคืนในภายหลัง
ข้อมูลเหล่านี้เองที่จะช่วยให้บริษัทสามารถติดตามพฤติกรรมการจับจ่ายสินค้าของลูกค้าแต่ละคนได้
เพื่อทำความเข้าใจว่าลูกค้าแต่ละรายชอบหรือไม่ชอบสินค้าชนิดใด
เดินทางมาซื้อสินค้าที่สาขาใด ณ ช่วงเวลาใด
และสามารถนำเสนอโปรโมชันให้ตรงใจกับลูกค้ามากที่สุดนั่นเอง
วิวัฒนาการของการทำเหมืองข้อมูล
ปี 1960 Data Collection คือ
การนำข้อมูลมาจัดเก็บอย่างเหมาะสมในอุปกรณ์ที่น่าเชื่อถือและป้องกันการสูญหายได้เป็นอย่างดี
- ปี 1980 Data Access คือ
การนำข้อมูลที่จัดเก็บมาสร้างความสัมพันธ์ต่อกันในข้อมูลเพื่อประโยชน์ในการนำไปวิเคราะห์
และการตัดสินใจอย่างมีคุณภาพ
- ปี 1990 Data
Warehouse & Decision Support คือ
การรวบรวมข้อมูลมาจัดเก็บลงไปในฐานข้อมูลขนาดใหญ่โดยครอบคลุมทุกด้านขององค์กร
เพื่อช่วยสนับสนุนการตัดสินใจ
- ปี 2000 Data Mining คือ
การนำข้อมูลจากฐานข้อมูลมาวิเคราะห์และประมวลผล โดยการสร้างแบบจำลองและความสัมพันธ์ทางสถิติ
ประเภทที่ใช้ทำเหมืองข้อมูล
- Relational
Database เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง
โดยในแต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์
ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย Entity Relationship Model
- Data
Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ในรูปแบบเดียวกันและรวบรวมไว้ในที่ๆ
เดียวกัน
- Transactional Database
ประกอบด้วยข้อมูลที่แต่ละทรานเเซกชันแทนด้วยเหตุการณ์ในขณะใดขณะหนึ่ง
เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูปชื่อลูกค้าและรายการสินค้าที่ลูกค้ารายซื้อ
- Advanced Database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่นๆ
เช่น
- ฐานข้อมูลเชิงวัตถุ
- ข้อมูลเกี่ยวกับเวลา
- ฐานข้อมูลข้อความ (Text databases) และฐานข้อมูลมัลติมีเดีย
- ฐานข้อมูลแบบเก่าในอดีตหรือข้อมูลที่มาจากต่างฐานข้อมูลกัน
- ข้อมูลจากแหล่ง WWW
ความรู้ที่ได้จากการทำเหมืองข้อมูล
กฎความสัมพันธ์ (Association rule)
แสดงความสัมพันธ์ของเหตุการณ์หรือวัตถุ
ที่เกิดขึ้นพร้อมกัน เช่น การวิเคราะห์ข้อมูลการขายสินค้า โดยเก็บข้อมูลจากระบบ ณ
จุดขาย (POS) หรือร้านค้าออนไลน์
แล้วพิจารณาสินค้าที่ผู้ซื้อมักจะซื้อพร้อมกัน เช่น
ถ้าพบว่าคนที่ซื้อเทปวิดีโอมักจะซื้อเทปกาวด้วย
ร้านค้าก็อาจจะจัดร้านให้สินค้าสองอย่างอยู่ใกล้กัน เพื่อเพิ่มยอดขายได้
การจำแนกประเภทข้อมูล (Data
classification)
หา กฎเพื่อระบุประเภทของวัตถุจากคุณสมบัติของวัตถุ
เช่น หาความสัมพันธ์ระหว่างผลการตรวจร่างกายต่าง ๆ กับการเกิดโรค
โดยใช้ข้อมูลผู้ป่วยและการวินิจฉัยของแพทย์ที่เก็บไว้
เพื่อนำมาช่วยวินิจฉัยโรคของผู้ป่วย หรือการวิจัยทางการแพทย์
ในทางธุรกิจจะใช้เพื่อดูคุณสมบัติของผู้ที่จะก่อหนี้ดีหรือหนี้เสีย
เพื่อประกอบการพิจารณาการอนุมัติเงินกู้
การแบ่งกลุ่มข้อมูล (Data clustering)
แบ่งข้อมูลที่มีลักษณะคล้ายกันออกเป็นกลุ่ม
แบ่งกลุ่มผู้ป่วยที่เป็นโรคเดียวกันตามลักษณะอาการ
เพื่อนำไปใช้ประโยชน์ในการวิเคราะห์หาสาเหตุของโรค โดยพิจารณาจากผู้ป่วยที่มีอาการคล้ายคลึงกัน
การสร้างมโนภาพ (Visualization)
สร้างภาพคอมพิวเตอร์กราฟิกที่สามารถนำเสนอข้อมูลมากมายอย่างครบถ้วนแทนการใช้ข้อความนำเสนอข้อมูลที่มากมาย
เราอาจพบข้อมูลที่ซ้อนเร้นเมื่อดูข้อมูลชุดนั้นด้วยจินตทัศน์
ขั้นตอนการทำเหมืองข้อมูล
-
Data Cleaning เป็นขั้นตอนสำหรับการคัดข้อมูลที่ไม่เกี่ยวข้องออกไป
- Data Integration เป็นขั้นตอนการรวมข้อมูลที่มีหลายแหล่งให้เป็นข้อมูลชุดเดียวกัน
- Data Selection เป็นขั้นตอนการดึงข้อมูลสำหรับการวิเคราะห์จากแหล่งที่บันทึกไว้
- Data Transformation เป็นขั้นตอนการแปลงข้อมูลให้เหมาะสมสำหรับการใช้งาน
- Data Mining เป็นขั้นตอนการค้นหารูปแบบที่เป็นประโยชน์จากข้อมูลที่มีอยู่
- Pattern Evaluation เป็นขั้นตอนการประเมินรูปแบบที่ได้จากการทำเหมืองข้อมูล
- Knowledge
Representation เป็นขั้นตอนการนำเสนอความรู้ที่ค้นพบ
โดยใช้เทคนิคในการนำเสนอเพื่อให้เข้าใจ
สถาปัตยกรรมของระบบการทำเหมืองข้อมูล
Database, Data Warehouse, World
Wide Web และ Other Info Repositories เป็นแหล่งข้อมูลสำหรับการทำเหมืองข้อมูล
- Database หรือ
Data Warehouse Server ทำหน้าที่นำเข้าข้อมูลตามคำขอของผู้ใช้
- Knowledge Base ได้แก่
ความรู้เฉพาะด้านในงานที่ทำจะเป็นประโยชน์ต่อการสืบค้น หรือประเมินความน่าสนใจของรูปแบบผลลัพธ์ที่ได้
- Data Mining Engine เป็นส่วนประกอบหลักประกอบด้วยโมดูลที่รับผิดชอบงานทำเหมืองข้อมูลประเภทต่างๆ
ได้แก่ การหากฎความสัมพันธ์ การจำแนกประเภท การจัดกลุ่ม
- Pattern Evaluation
Module ทำงานร่วมกับ Data Mining Engine โดยใช้มาตรวัดความน่าสนใจในการกลั่นกรองรูปแบบผลลัทธ์ที่ได้
เพื่อให้การค้นหามุ่งเน้นเฉพาะรูปแบบที่น่าสนใจ
- Graphic User Interface
ส่วนติดต่อประสานระหว่างผู้ใช้กับระบบการทำเหมืองข้อมูล
ช่วยให้ผู้ใช้สามารถระบุงานทำเหมืองข้อมูลที่ต้องการทำ
ดูข้อมูลหรือโครงสร้างการจัดเก็บข้อมูล ประเมินผลลัพธ์ที่ได้
งานของData mining
การจัดหมวดหมู่
การจัดหมวดหมู่ถือว่าเป็นงานธรรมดาทั่วไปของ Data
Mining เพราะการทำความเข้าใจและการติดต่อสื่อสารต่างๆ ก็เกี่ยวข้องกับการแบ่งเป็นหมวดหมู่การจัดแยกประเภทและการแบ่งแยกชนิดโดยการจัดหมวดหมู่ประกอบด้วยการสำรวจจุดเด่นของวัตถุที่ปรากฏออกมา
และทำการกำหนด จุดเด่นนั้นๆ
การประเมินค่า
การประเมินค่าทางธุรกิจอย่างต่อเนื่องจะก่อให้เกิดผลลัพธ์ที่มีประโยชน์กับธุรกิจ
คือการป้อนข้อมูลที่เรามีอยู่เข้าไป เพื่อใช้ในการประเมินสิ่งต่างๆ
ที่จะก่อให้เกิดประโยชน์ หรือสำหรับตัวแปรที่เราไม่รู้ค่า แน่นอนเช่น
รายได้จากการค่า จุดสูงสุดทางธุรกิจ หรือดุลยภาพของบัตรเครดิต
การพยากรณ์
จะเหมือนกับจัดหมวดหมู่ และ
ประเมินค่า ต่างกันตรงที่การบันทึกถูกแยกจัดลำดับในการทำนายค่าในอนาคต และนำข้อมูลในอดีตมาสร้างเป็นแบบจำลองใช้ทำนายสิ่งที่จะเกิดขึ้นในอนาคต
เช่น การทำนายว่าลูกค้ากลุ่มใด
ที่องค์กรจะสูญเสียไปในอีก 6
เดือนข้างหน้า
หรือ
การทำนายยอดซื้อของลูกค้าจะเป็นเท่าใด
ถ้าบริษัทลดราคาสินค้าลง 10%
การจัดกลุ่มโดยอาศัยความใกล้ชิดกัน
หรือการวิเคราะห์ของตลาด
คือการตัดสินใจรวมสิ่งที่สามารถไปด้วยกันเข้าไว้ในกลุ่มเดียวกัน เช่น
การตัดสินใจว่าสิ่งใดบ้างที่จะไปอยู่ด้วยกันอย่างสม่ำเสมอในรถเข็นในซุปเปอร์มาร์เกต
การรวมตัว
คืองานที่ทำการรวมส่วนต่างๆ ในแต่ละส่วนที่ต่างชนิดกันให้อยู่รวมกันเป็นกลุ่มย่อย
หรือคลัสเตอร์ (Clusters) โดยในแต่ละคลัสเตอร์อาจจะประกอบด้วยส่วนต่างๆที่ต่างชนิดกัน
ซึ่งความแตกต่างของการรวมตัวจากการจัดหมวดหมู่คือ การรวมตัวจะไม่พึ่งพาอาศัยการกำหนดหมวดหมู่ล่วงหน้า
และไม่ใช้ตัวอย่าง ข้อมูลจะรวมตัวกันบนพื้นฐานของความคล้ายในตัวเอง
การบรรยาย
ในบางครั้งวัตถุประสงค์ของData Mining คือต้องการอธิบายความสับสนของฐานข้อมูลในทางที่จะเพิ่มความเข้าใจในส่วนของประชากร
ผลิตภัณฑ์ หรือขบวนการให้มากขึ้น
เทคนิคData Miningส่วนใหญ่ต้องการเทรนนิ่งข้อมูลจำนวนมากที่ประกอบด้วยหลายๆ
ตัวอย่างเพื่อจะสร้างกฎที่ใช้ในการจัดหมวดหมู่ กฎของความสัมพันธ์ คลัสเตอร์ การพยากรณ์
ดังนั้นชุดของข้อมูลขนาดเล็กจะนำไปสู่ความไม่น่าไว้วางใจของผลสรุปทีได้
ไม่มีเทคนิคใดเลยที่จะสามารถแก้ปัญหาของData Miningได้ทุกปัญหา
ดังนั้นความหลากหลายของเทคนิคจึงเป็นสิ่งที่จำเป็นในการไปสู่วิธีการแก้ปัญหาของData
Miningได้ดีที่สุด
1. นิวรอนเน็ตเวิร์ก
นิวรอนเน็ตเวิร์ก
คือระบบที่มีการประมวลผลข้อมูลซึ่งรวมคุณสมบัติของไบโอลอจิกคอล นิวรอนเน็ตเวิร์ก
ถูกพัฒนาขึ้นโดยโมเดลทางคณิตศาสตร์ของกระบวนการเรียนรู้ของมนุษย์ และจะเรียนรู้จากชุดข้อมูลของชุดความรู้
(Training Set)
นิวรอนเน็ตเวิร์ก
ประกอบด้วยหน่วยความจำจำนวนมากเรียกว่า นิวรอน,เซลหรือโหนด
แต่ละนิวรอนต่อกันโดยคอนเน็กชั้นลิ่ง (Connection Link) ที่ค่าน้ำหนัก
(Weight) ของมันอยู่
โดยค่าน้ำหนักจะแสดงรายละเอียดที่เน็ตเวิร์กใช้ในการแก้ปัญหา
โดยนิวรอนเนตเวิร์กถูกใช้ในการแก้ปัญหาอย่างกว้างขวาง เช่น
การเก็บและการเรียกข้อมูล, การแยกประเภทของข้อมูล, การเปลี่ยนจากรูปแบบของอินพุทให้อยู่ในรูปแบบของเอาท์พุท,ความสามารถในการตรวจสอบรูปแบบของข้อมูลที่คล้ายคลึงกับความคิดมนุษย์
เป็นต้น ถึงแม้ว่านิวรอนเน็ตเวิร์ก สามารถนำไปประยุกต์ใช้กับงานหลาย ๆ
ชนิดได้อย่างมีประสิทธิภาพ แต่นิวรอนเน็ตเวิร์ก ก็ยังมีข้อเสียอยู่บ้าง ดังนี้
1.1 นิวรอนเน็ตเวิร์กเป็นวิธีที่ยากต่อการทำความเข้าใจในโมเดลที่ถูกผลิตออกมา
1.2 นิวรอนเน็ตเวิร์กมีคุณสมบัติที่ไวต่อรูปแบบของอินพุท
ถ้าเราแทนข้อมูลด้วยรูปแบบที่แตกต่างกันก็จะสามารถผลิตผลลัพธ์ที่แตกต่างกันออกมา
ดังนั้นการกำหนดค่าเริ่มต้นให้กับข้อมูลจึงเป็นส่วนที่มีความสำคัญส่วนหนึ่ง
2. จีเนติก อัลกอริทึ่ม (Genetic Algorithm
: GA)
ในยีนส์ของมนุษย์นั้นจะมีการถ่ายทอดพันธุกรรมไปยังลูกหลานได้
ซึ่ง Genetic Algorithms จะอาศัยหลักการนี้
ข้อมูลชุดหนึ่งซึ่งมี Rule ของตัวมันเอง
หากมมีการนำข้อมูลทั้งสองชุดมารวมกันเป็นรูปแบบนี้
ก็จะมีการสร้างกฎขึ้นมาโดยวิเคราะห์จากกฎที่มีอยู่ของทั้ง 2 Pattern
การประยุกต์ใช้ Data mining
กลุ่มเทเลคอมและเน็ตเวิร์ค – โปรโมชันมือถือ
หรือ internet ระบบตรวจจับการบุกรุกเครือข่าย
bullet2กลุ่มประกันชีวิต – แผนประกันชีวิตแบบต่างๆ
bullet2กลุ่มโรงพยาบาล – การออกแพ็คเก็ตตรวจสุขภาพ
bullet2กลุ่มการท่องเที่ยวและโรงแรม –
Recommendation system สำหรับ web marketing
Bullet2กลุ่มธุรกิจการเงิน ธนาคาร – ระบบสนับสนุนการตัดสินใจในการให้สินเชื่อ
ระบบตรวจจับการทุจริตทางการเงิน
bullet2กลุ่มวิทยาศาสตร์ชีวภาพ – งานวิจัยทางด้าน
Bioinformatics
ไม่มีความคิดเห็น:
แสดงความคิดเห็น