การพัฒนาประสิทธิภาพการจัดหมวดหมู่เอกสารภาษาไทยแบบอัตโนมัติ Developing and Effective Automatic Thai Document Categorization
Main Article Content
Abstract
บทความนี้ได้นำเสนอแบบจำลองการจัดหมวดหมู่เอกสารภาษาไทย โดยลดคุณลักษณะของเอกสารก่อนประมวลผลด้วยเครื่องจักรการเรียนรู้ เพื่อประโยชน์ในการลดมิติของข้อมูล ลดระยะเวลาประมวลผล ประหยัดทรัพยากรของระบบ และเพิ่มประสิทธิภาพในการจัดหมวดหมู่เอกสารภาษาไทย จากการทดลองพบว่าการลดคุณลักษณะด้วยวิธี Information Gain และประมวลผลด้วยเครื่องจักรการเรียนรู้แบบต่างๆ บนแบบจำลองการจัดหมวดหมู่เอกสารภาษาไทย โดยวัดประสิทธิภาพการจัดหมวดหมู่เอกสารที่ F-Measure ดีที่สุดพบว่า อัลกอริทึม SVM ให้ประสิทธิภาพสูงสุดคือ 94.3 % รองลงมาเป็นอัลกอริทึม Naïve Baye 86.2 % อัลกอริทึม RBF 86.1% อัลกอริทึม J48 79.7% อัลกอริทึม Ripper 78.9% อัลกอริทึม KNN 69.5% ตามลำดับ เมื่อพิจารณาด้านการลดขนาดคุณลักษณะจากกลุ่มตัวอย่างของอัลกอริทึม SVM พบว่าสามารถลดลงได้มากถึง 90% โดยการลดลงของคุณลักษณะดังกล่าวไม่ส่งผลให้ประสิทธิภาพในการจัดหมวดหมู่เอกสารลดลงแต่อย่างใด
Article Details
How to Cite
จิระวิชิตชัย น., สงวนสัตย์ ป., & มีสัจ พ. (2012). การพัฒนาประสิทธิภาพการจัดหมวดหมู่เอกสารภาษาไทยแบบอัตโนมัติ Developing and Effective Automatic Thai Document Categorization. NIDA Development Journal, 51(3), 187–205. Retrieved from https://so04.tci-thaijo.org/index.php/NDJ/article/view/3018
Section
Articles