การพัฒนาประสิทธิภาพการจัดหมวดหมู่เอกสารภาษาไทยแบบอัตโนมัติ Developing and Effective Automatic Thai Document Categorization

ผู้แต่ง

  • นิเวศ จิระวิชิตชัย
  • ปริญญา สงวนสัตย์
  • พยุง มีสัจ

คำสำคัญ:

การจัดหมวดหมู่เอกสาร, การลดคุณลักษณะ, เครื่องจักรเรียนรู้

บทคัดย่อ

บทความนี้ได้นำเสนอแบบจำลองการจัดหมวดหมู่เอกสารภาษาไทย โดยลดคุณลักษณะของเอกสารก่อนประมวลผลด้วยเครื่องจักรการเรียนรู้  เพื่อประโยชน์ในการลดมิติของข้อมูล ลดระยะเวลาประมวลผล ประหยัดทรัพยากรของระบบ และเพิ่มประสิทธิภาพในการจัดหมวดหมู่เอกสารภาษาไทย จากการทดลองพบว่าการลดคุณลักษณะด้วยวิธี Information Gain และประมวลผลด้วยเครื่องจักรการเรียนรู้แบบต่างๆ บนแบบจำลองการจัดหมวดหมู่เอกสารภาษาไทย  โดยวัดประสิทธิภาพการจัดหมวดหมู่เอกสารที่ F-Measure ดีที่สุดพบว่า อัลกอริทึม SVM ให้ประสิทธิภาพสูงสุดคือ 94.3 % รองลงมาเป็นอัลกอริทึม Naïve Baye  86.2 %  อัลกอริทึม RBF 86.1% อัลกอริทึม J48 79.7% อัลกอริทึม Ripper 78.9% อัลกอริทึม KNN  69.5% ตามลำดับ เมื่อพิจารณาด้านการลดขนาดคุณลักษณะจากกลุ่มตัวอย่างของอัลกอริทึม SVM พบว่าสามารถลดลงได้มากถึง 90% โดยการลดลงของคุณลักษณะดังกล่าวไม่ส่งผลให้ประสิทธิภาพในการจัดหมวดหมู่เอกสารลดลงแต่อย่างใด

ดาวน์โหลด

เผยแพร่แล้ว

06-10-2012

รูปแบบการอ้างอิง

จิระวิชิตชัย น., สงวนสัตย์ ป., & มีสัจ พ. (2012). การพัฒนาประสิทธิภาพการจัดหมวดหมู่เอกสารภาษาไทยแบบอัตโนมัติ Developing and Effective Automatic Thai Document Categorization. วารสารพัฒนบริหารศาสตร์, 51(3), 187–205. สืบค้น จาก https://so04.tci-thaijo.org/index.php/NDJ/article/view/3018