ระบบสารสนเทศทางการบัญชี: Data mining

Data mining คือ

การทำเหมืองข้อมูล หรือเรียกอีกอย่างหนึ่งว่า การค้นหาความรู้ที่อยู่ในฐานข้อมูล เป็นเทคนิคในการค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ถูกซ่อนอยู่ในชุดข้อมูลจำนวนมาก โดยอาศัยหลักสถิติ การรู้จำและหลักคณิตศาสตร์ และเป็นศาสตร์แขนงหนึ่งทาง AI

AI ย่อมาจากคำว่า ปัญญาประดิษฐ์ (Artificial Intelligence) หรือ เอไอ (AI) หมายถึงความฉลาดเทียมที่สร้างขึ้นให้กับสิ่งที่ไม่มีชีวิต ปัญญาประดิษฐ์เป็นสาขาหนึ่งในด้านวิทยาการคอมพิวเตอร์ และวิศวกรรมเป็นหลัก แต่ยังรวมถึงศาสตร์ในด้านอื่นๆอย่างจิตวิทยา ปรัชญา หรือชีววิทยา ซึ่งสาขาปัญญาประดิษฐ์เป็นการเรียนรู้เกี่ยวกับกระบวนการการคิด การกระทำ การให้เหตุผล การปรับตัว หรือการอนุมาน และการทำงานของสมอง

ทำไมต้อง data mining

ในสภาวะเศรษฐกิจปัจจุบันที่มีความผันผวนและมีการแข่งขันสูง การพยายามรักษาฐานลูกค้าเก่าและเพิ่มกลุ่มลูกค้าใหม่เป็นสิ่งที่ทุกธุรกิจขาดไม่ได้ กลยุทธ์ที่นิยมนำมาใช้คือการทำ CRM (Customer Relationship Management) เป็นวิธีการบริหารความสัมพันธ์ระหว่างองค์กรกับลูกค้า โดยเริ่มจากการเก็บข้อมูลประวัติลูกค้า ทั้งประวัติส่วนบุคคลและประวัติการซื้อสินค้า (transaction) จากนั้นทำการวิเคราะห์พฤติกรรมการบริโภคสินค้าของลูกค้า ทำการจัดกลุ่มและประเมินว่าลูกค้าแต่ละกลุ่มมีผลต่อกำไรมากน้อยเพียงใด พัฒนาคุณภาพสินค้าและบริการ มีการเสนอโปรโมชันสินค้าและบริการที่ตรงใจ เพื่อตอบโจทย์ของลูกค้าให้ตรงใจมากที่สุด โดยเทคนิคดาต้าไมน์นิ่งได้เข้ามามีบทบาทสำคัญสนับสนุนงานด้าน CRM โดยใช้ในการหาความสัมพันธ์การซื้อสินค้าของลูกค้า เพื่อนำไปวิเคราะห์และช่วยในงานด้านส่งเสริมการขาย ใช้ในการจำแนกลูกค้า หรือใช้ในการบอกแนวโน้มการเลิกใช้สินค้าของลูกค้าชั้นดีที่กำลังจะจากไป

ดังจะเห็นได้ว่าห้างสรรพสินค้าขนาดใหญ่ต่างๆ ไม่ว่าจะเป็น Tesco Lotus, BigC, Carrefour, Central, The Mall ต่างก็ออกบัตรสมาชิก (Club Card, BigCard, i-Wish Card, …) ให้กับลูกค้าเพื่อนำไปใช้เป็นส่วนลดในการซื้อสินค้าหรือได้รับเงินคืนในภายหลัง ข้อมูลเหล่านี้เองที่จะช่วยให้บริษัทสามารถติดตามพฤติกรรมการจับจ่ายสินค้าของลูกค้าแต่ละคนได้ เพื่อทำความเข้าใจว่าลูกค้าแต่ละรายชอบหรือไม่ชอบสินค้าชนิดใด เดินทางมาซื้อสินค้าที่สาขาใด ณ ช่วงเวลาใด และสามารถนำเสนอโปรโมชันให้ตรงใจกับลูกค้ามากที่สุดนั่นเอง

วิวัฒนาการของการทำเหมืองข้อมูล

ปี 1960 Data Collection คือ การนำข้อมูลมาจัดเก็บอย่างเหมาะสมในอุปกรณ์ที่น่าเชื่อถือและป้องกันการสูญหายได้เป็นอย่างดี

- ปี 1980 Data Access คือ การนำข้อมูลที่จัดเก็บมาสร้างความสัมพันธ์ต่อกันในข้อมูลเพื่อประโยชน์ในการนำไปวิเคราะห์ และการตัดสินใจอย่างมีคุณภาพ

- ปี 1990 Data Warehouse & Decision Support คือ การรวบรวมข้อมูลมาจัดเก็บลงไปในฐานข้อมูลขนาดใหญ่โดยครอบคลุมทุกด้านขององค์กร เพื่อช่วยสนับสนุนการตัดสินใจ

- ปี 2000 Data Mining คือ การนำข้อมูลจากฐานข้อมูลมาวิเคราะห์และประมวลผล โดยการสร้างแบบจำลองและความสัมพันธ์ทางสถิติ

ประเภทที่ใช้ทำเหมืองข้อมูล

- Relational Database เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยในแต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย Entity Relationship Model

- Data Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ในรูปแบบเดียวกันและรวบรวมไว้ในที่ๆ เดียวกัน

- Transactional Database ประกอบด้วยข้อมูลที่แต่ละทรานเเซกชันแทนด้วยเหตุการณ์ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูปชื่อลูกค้าและรายการสินค้าที่ลูกค้ารายซื้อ

- Advanced Database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่นๆ เช่น

- ฐานข้อมูลเชิงวัตถุ

- ข้อมูลเกี่ยวกับเวลา

- ฐานข้อมูลข้อความ (Text databases) และฐานข้อมูลมัลติมีเดีย

- ฐานข้อมูลแบบเก่าในอดีตหรือข้อมูลที่มาจากต่างฐานข้อมูลกัน

- ข้อมูลจากแหล่ง WWW

ความรู้ที่ได้จากการทำเหมืองข้อมูล

กฎความสัมพันธ์ (Association rule)

แสดงความสัมพันธ์ของเหตุการณ์หรือวัตถุ ที่เกิดขึ้นพร้อมกัน เช่น การวิเคราะห์ข้อมูลการขายสินค้า โดยเก็บข้อมูลจากระบบ ณ จุดขาย (POS) หรือร้านค้าออนไลน์ แล้วพิจารณาสินค้าที่ผู้ซื้อมักจะซื้อพร้อมกัน เช่น ถ้าพบว่าคนที่ซื้อเทปวิดีโอมักจะซื้อเทปกาวด้วย ร้านค้าก็อาจจะจัดร้านให้สินค้าสองอย่างอยู่ใกล้กัน เพื่อเพิ่มยอดขายได้

การจำแนกประเภทข้อมูล (Data classification)

หา กฎเพื่อระบุประเภทของวัตถุจากคุณสมบัติของวัตถุ เช่น หาความสัมพันธ์ระหว่างผลการตรวจร่างกายต่าง ๆ กับการเกิดโรค โดยใช้ข้อมูลผู้ป่วยและการวินิจฉัยของแพทย์ที่เก็บไว้ เพื่อนำมาช่วยวินิจฉัยโรคของผู้ป่วย หรือการวิจัยทางการแพทย์ ในทางธุรกิจจะใช้เพื่อดูคุณสมบัติของผู้ที่จะก่อหนี้ดีหรือหนี้เสีย เพื่อประกอบการพิจารณาการอนุมัติเงินกู้

การแบ่งกลุ่มข้อมูล (Data clustering)

แบ่งข้อมูลที่มีลักษณะคล้ายกันออกเป็นกลุ่ม แบ่งกลุ่มผู้ป่วยที่เป็นโรคเดียวกันตามลักษณะอาการ เพื่อนำไปใช้ประโยชน์ในการวิเคราะห์หาสาเหตุของโรค โดยพิจารณาจากผู้ป่วยที่มีอาการคล้ายคลึงกัน

การสร้างมโนภาพ (Visualization)

สร้างภาพคอมพิวเตอร์กราฟิกที่สามารถนำเสนอข้อมูลมากมายอย่างครบถ้วนแทนการใช้ข้อความนำเสนอข้อมูลที่มากมาย เราอาจพบข้อมูลที่ซ้อนเร้นเมื่อดูข้อมูลชุดนั้นด้วยจินตทัศน์

ขั้นตอนการทำเหมืองข้อมูล

- Data Cleaning เป็นขั้นตอนสำหรับการคัดข้อมูลที่ไม่เกี่ยวข้องออกไป

- Data Integration เป็นขั้นตอนการรวมข้อมูลที่มีหลายแหล่งให้เป็นข้อมูลชุดเดียวกัน

- Data Selection เป็นขั้นตอนการดึงข้อมูลสำหรับการวิเคราะห์จากแหล่งที่บันทึกไว้

- Data Transformation เป็นขั้นตอนการแปลงข้อมูลให้เหมาะสมสำหรับการใช้งาน

- Data Mining เป็นขั้นตอนการค้นหารูปแบบที่เป็นประโยชน์จากข้อมูลที่มีอยู่

- Pattern Evaluation เป็นขั้นตอนการประเมินรูปแบบที่ได้จากการทำเหมืองข้อมูล

- Knowledge Representation เป็นขั้นตอนการนำเสนอความรู้ที่ค้นพบ โดยใช้เทคนิคในการนำเสนอเพื่อให้เข้าใจ

สถาปัตยกรรมของระบบการทำเหมืองข้อมูล

Database, Data Warehouse, World Wide Web และ Other Info Repositories เป็นแหล่งข้อมูลสำหรับการทำเหมืองข้อมูล

- Database หรือ Data Warehouse Server ทำหน้าที่นำเข้าข้อมูลตามคำขอของผู้ใช้

- Knowledge Base ได้แก่ ความรู้เฉพาะด้านในงานที่ทำจะเป็นประโยชน์ต่อการสืบค้น หรือประเมินความน่าสนใจของรูปแบบผลลัพธ์ที่ได้

- Data Mining Engine เป็นส่วนประกอบหลักประกอบด้วยโมดูลที่รับผิดชอบงานทำเหมืองข้อมูลประเภทต่างๆ ได้แก่ การหากฎความสัมพันธ์ การจำแนกประเภท การจัดกลุ่ม

- Pattern Evaluation Module ทำงานร่วมกับ Data Mining Engine โดยใช้มาตรวัดความน่าสนใจในการกลั่นกรองรูปแบบผลลัทธ์ที่ได้ เพื่อให้การค้นหามุ่งเน้นเฉพาะรูปแบบที่น่าสนใจ

- Graphic User Interface ส่วนติดต่อประสานระหว่างผู้ใช้กับระบบการทำเหมืองข้อมูล ช่วยให้ผู้ใช้สามารถระบุงานทำเหมืองข้อมูลที่ต้องการทำ ดูข้อมูลหรือโครงสร้างการจัดเก็บข้อมูล ประเมินผลลัพธ์ที่ได้

งานของData mining

การจัดหมวดหมู่

การจัดหมวดหมู่ถือว่าเป็นงานธรรมดาทั่วไปของ Data Mining เพราะการทำความเข้าใจและการติดต่อสื่อสารต่างๆ ก็เกี่ยวข้องกับการแบ่งเป็นหมวดหมู่การจัดแยกประเภทและการแบ่งแยกชนิดโดยการจัดหมวดหมู่ประกอบด้วยการสำรวจจุดเด่นของวัตถุที่ปรากฏออกมา และทำการกำหนด จุดเด่นนั้นๆ

การประเมินค่า

การประเมินค่าทางธุรกิจอย่างต่อเนื่องจะก่อให้เกิดผลลัพธ์ที่มีประโยชน์กับธุรกิจ คือการป้อนข้อมูลที่เรามีอยู่เข้าไป เพื่อใช้ในการประเมินสิ่งต่างๆ ที่จะก่อให้เกิดประโยชน์ หรือสำหรับตัวแปรที่เราไม่รู้ค่า แน่นอนเช่น รายได้จากการค่า จุดสูงสุดทางธุรกิจ หรือดุลยภาพของบัตรเครดิต

การพยากรณ์

จะเหมือนกับจัดหมวดหมู่ และ ประเมินค่า ต่างกันตรงที่การบันทึกถูกแยกจัดลำดับในการทำนายค่าในอนาคต และนำข้อมูลในอดีตมาสร้างเป็นแบบจำลองใช้ทำนายสิ่งที่จะเกิดขึ้นในอนาคต เช่น การทำนายว่าลูกค้ากลุ่มใด ที่องค์กรจะสูญเสียไปในอีก 6 เดือนข้างหน้า หรือ การทำนายยอดซื้อของลูกค้าจะเป็นเท่าใด ถ้าบริษัทลดราคาสินค้าลง 10%

การจัดกลุ่มโดยอาศัยความใกล้ชิดกัน หรือการวิเคราะห์ของตลาด

คือการตัดสินใจรวมสิ่งที่สามารถไปด้วยกันเข้าไว้ในกลุ่มเดียวกัน เช่น การตัดสินใจว่าสิ่งใดบ้างที่จะไปอยู่ด้วยกันอย่างสม่ำเสมอในรถเข็นในซุปเปอร์มาร์เกต

การรวมตัว

คืองานที่ทำการรวมส่วนต่างๆ ในแต่ละส่วนที่ต่างชนิดกันให้อยู่รวมกันเป็นกลุ่มย่อย หรือคลัสเตอร์ (Clusters) โดยในแต่ละคลัสเตอร์อาจจะประกอบด้วยส่วนต่างๆที่ต่างชนิดกัน ซึ่งความแตกต่างของการรวมตัวจากการจัดหมวดหมู่คือ การรวมตัวจะไม่พึ่งพาอาศัยการกำหนดหมวดหมู่ล่วงหน้า และไม่ใช้ตัวอย่าง ข้อมูลจะรวมตัวกันบนพื้นฐานของความคล้ายในตัวเอง

การบรรยาย

ในบางครั้งวัตถุประสงค์ของData Mining คือต้องการอธิบายความสับสนของฐานข้อมูลในทางที่จะเพิ่มความเข้าใจในส่วนของประชากร ผลิตภัณฑ์ หรือขบวนการให้มากขึ้น

เทคนิคData Miningส่วนใหญ่ต้องการเทรนนิ่งข้อมูลจำนวนมากที่ประกอบด้วยหลายๆ ตัวอย่างเพื่อจะสร้างกฎที่ใช้ในการจัดหมวดหมู่ กฎของความสัมพันธ์ คลัสเตอร์ การพยากรณ์ ดังนั้นชุดของข้อมูลขนาดเล็กจะนำไปสู่ความไม่น่าไว้วางใจของผลสรุปทีได้ ไม่มีเทคนิคใดเลยที่จะสามารถแก้ปัญหาของData Miningได้ทุกปัญหา ดังนั้นความหลากหลายของเทคนิคจึงเป็นสิ่งที่จำเป็นในการไปสู่วิธีการแก้ปัญหาของData Miningได้ดีที่สุด

1. นิวรอนเน็ตเวิร์ก

นิวรอนเน็ตเวิร์ก คือระบบที่มีการประมวลผลข้อมูลซึ่งรวมคุณสมบัติของไบโอลอจิกคอล นิวรอนเน็ตเวิร์ก ถูกพัฒนาขึ้นโดยโมเดลทางคณิตศาสตร์ของกระบวนการเรียนรู้ของมนุษย์ และจะเรียนรู้จากชุดข้อมูลของชุดความรู้ (Training Set)

นิวรอนเน็ตเวิร์ก ประกอบด้วยหน่วยความจำจำนวนมากเรียกว่า นิวรอน,เซลหรือโหนด แต่ละนิวรอนต่อกันโดยคอนเน็กชั้นลิ่ง (Connection Link) ที่ค่าน้ำหนัก (Weight) ของมันอยู่ โดยค่าน้ำหนักจะแสดงรายละเอียดที่เน็ตเวิร์กใช้ในการแก้ปัญหา โดยนิวรอนเนตเวิร์กถูกใช้ในการแก้ปัญหาอย่างกว้างขวาง เช่น การเก็บและการเรียกข้อมูล, การแยกประเภทของข้อมูล, การเปลี่ยนจากรูปแบบของอินพุทให้อยู่ในรูปแบบของเอาท์พุท,ความสามารถในการตรวจสอบรูปแบบของข้อมูลที่คล้ายคลึงกับความคิดมนุษย์ เป็นต้น ถึงแม้ว่านิวรอนเน็ตเวิร์ก สามารถนำไปประยุกต์ใช้กับงานหลาย ๆ ชนิดได้อย่างมีประสิทธิภาพ แต่นิวรอนเน็ตเวิร์ก ก็ยังมีข้อเสียอยู่บ้าง ดังนี้

1.1 นิวรอนเน็ตเวิร์กเป็นวิธีที่ยากต่อการทำความเข้าใจในโมเดลที่ถูกผลิตออกมา

1.2 นิวรอนเน็ตเวิร์กมีคุณสมบัติที่ไวต่อรูปแบบของอินพุท ถ้าเราแทนข้อมูลด้วยรูปแบบที่แตกต่างกันก็จะสามารถผลิตผลลัพธ์ที่แตกต่างกันออกมา ดังนั้นการกำหนดค่าเริ่มต้นให้กับข้อมูลจึงเป็นส่วนที่มีความสำคัญส่วนหนึ่ง

2. จีเนติก อัลกอริทึ่ม (Genetic Algorithm : GA)

ในยีนส์ของมนุษย์นั้นจะมีการถ่ายทอดพันธุกรรมไปยังลูกหลานได้ ซึ่ง Genetic Algorithms จะอาศัยหลักการนี้ ข้อมูลชุดหนึ่งซึ่งมี Rule ของตัวมันเอง หากมมีการนำข้อมูลทั้งสองชุดมารวมกันเป็นรูปแบบนี้ ก็จะมีการสร้างกฎขึ้นมาโดยวิเคราะห์จากกฎที่มีอยู่ของทั้ง 2 Pattern

การประยุกต์ใช้ Data mining

กลุ่มเทเลคอมและเน็ตเวิร์ค – โปรโมชันมือถือ หรือ internet ระบบตรวจจับการบุกรุกเครือข่าย

bullet2กลุ่มประกันชีวิต – แผนประกันชีวิตแบบต่างๆ

bullet2กลุ่มโรงพยาบาล – การออกแพ็คเก็ตตรวจสุขภาพ

bullet2กลุ่มการท่องเที่ยวและโรงแรม – Recommendation system สำหรับ web marketing

Bullet2กลุ่มธุรกิจการเงิน ธนาคาร – ระบบสนับสนุนการตัดสินใจในการให้สินเชื่อ ระบบตรวจจับการทุจริตทางการเงิน

bullet2กลุ่มวิทยาศาสตร์ชีวภาพ – งานวิจัยทางด้าน Bioinformatics

ระบบสารสนเทศทางการบัญชี

วันอังคารที่ 23 กันยายน พ.ศ. 2557

Data mining

ไม่มีความคิดเห็น:

แสดงความคิดเห็น