การพัฒนาประสิทธิภาพการจัดหมวดหมู่เอกสารภาษาไทยแบบอัตโนมัติ Developing and Effective Automatic Thai Document Categorization

Main Article Content

นิเวศ จิระวิชิตชัย
ปริญญา สงวนสัตย์
พยุง มีสัจ

Abstract

บทความนี้ได้นำเสนอแบบจำลองการจัดหมวดหมู่เอกสารภาษาไทย โดยลดคุณลักษณะของเอกสารก่อนประมวลผลด้วยเครื่องจักรการเรียนรู้  เพื่อประโยชน์ในการลดมิติของข้อมูล ลดระยะเวลาประมวลผล ประหยัดทรัพยากรของระบบ และเพิ่มประสิทธิภาพในการจัดหมวดหมู่เอกสารภาษาไทย จากการทดลองพบว่าการลดคุณลักษณะด้วยวิธี Information Gain และประมวลผลด้วยเครื่องจักรการเรียนรู้แบบต่างๆ บนแบบจำลองการจัดหมวดหมู่เอกสารภาษาไทย  โดยวัดประสิทธิภาพการจัดหมวดหมู่เอกสารที่ F-Measure ดีที่สุดพบว่า อัลกอริทึม SVM ให้ประสิทธิภาพสูงสุดคือ 94.3 % รองลงมาเป็นอัลกอริทึม Naïve Baye  86.2 %  อัลกอริทึม RBF 86.1% อัลกอริทึม J48 79.7% อัลกอริทึม Ripper 78.9% อัลกอริทึม KNN  69.5% ตามลำดับ เมื่อพิจารณาด้านการลดขนาดคุณลักษณะจากกลุ่มตัวอย่างของอัลกอริทึม SVM พบว่าสามารถลดลงได้มากถึง 90% โดยการลดลงของคุณลักษณะดังกล่าวไม่ส่งผลให้ประสิทธิภาพในการจัดหมวดหมู่เอกสารลดลงแต่อย่างใด

Article Details

Section
Articles