การพัฒนาประสิทธิภาพการจัดหมวดหมู่เอกสารภาษาไทยแบบอัตโนมัติ Developing and Effective Automatic Thai Document Categorization

นิเวศ จิระวิชิตชัย; ปริญญา สงวนสัตย์; พยุง มีสัจ

Authors

นิเวศ จิระวิชิตชัย
ปริญญา สงวนสัตย์
พยุง มีสัจ

Keywords:

การจัดหมวดหมู่เอกสาร, การลดคุณลักษณะ, เครื่องจักรเรียนรู้

Abstract

บทความนี้ได้นำเสนอแบบจำลองการจัดหมวดหมู่เอกสารภาษาไทย โดยลดคุณลักษณะของเอกสารก่อนประมวลผลด้วยเครื่องจักรการเรียนรู้ เพื่อประโยชน์ในการลดมิติของข้อมูล ลดระยะเวลาประมวลผล ประหยัดทรัพยากรของระบบ และเพิ่มประสิทธิภาพในการจัดหมวดหมู่เอกสารภาษาไทย จากการทดลองพบว่าการลดคุณลักษณะด้วยวิธี Information Gain และประมวลผลด้วยเครื่องจักรการเรียนรู้แบบต่างๆ บนแบบจำลองการจัดหมวดหมู่เอกสารภาษาไทย โดยวัดประสิทธิภาพการจัดหมวดหมู่เอกสารที่ F-Measure ดีที่สุดพบว่า อัลกอริทึม SVM ให้ประสิทธิภาพสูงสุดคือ 94.3 % รองลงมาเป็นอัลกอริทึม Naïve Baye 86.2 % อัลกอริทึม RBF 86.1% อัลกอริทึม J48 79.7% อัลกอริทึม Ripper 78.9% อัลกอริทึม KNN 69.5% ตามลำดับ เมื่อพิจารณาด้านการลดขนาดคุณลักษณะจากกลุ่มตัวอย่างของอัลกอริทึม SVM พบว่าสามารถลดลงได้มากถึง 90% โดยการลดลงของคุณลักษณะดังกล่าวไม่ส่งผลให้ประสิทธิภาพในการจัดหมวดหมู่เอกสารลดลงแต่อย่างใด

การพัฒนาประสิทธิภาพการจัดหมวดหมู่เอกสารภาษาไทยแบบอัตโนมัติ Developing and Effective Automatic Thai Document Categorization

Authors

Keywords:

Abstract

Downloads

Published

How to Cite

Issue

Section

Submissions

journalinfo

Information

Document for Submissions

indexedin

Language