การศึกษาการแยกนัยความหมายของ หัว ในภาษาไทย โดยใช้วิธีการวิเคราะห์ความหมายแอบแฝง

Main Article Content

Nutcha Tirasaroj
วิโรจน์ อรุณมานะกุล

บทคัดย่อ

ในภาษามีคำจำนวนมากเป็นคำหลายความหมาย สำหรับมนุษย์แล้ว คำหลายความหมายไม่ได้เป็นอุปสรรคในการสื่อสารเนื่องจากผู้ส่งสารและผู้รับสารยังคงสามารถเข้าใจความหมายได้ตรงกัน แต่สำหรับคอมพิวเตอร์แล้ว การสอนให้คอมพิวเตอร์ รู้จักความหมายของคำ รวมถึงรู้ว่าควรเลือกใช้ความหมายใดจากความหมายทั้งหมดของคำหลายความหมายเมื่ออยู่ในบริบทต่างๆ นั้นยังเป็นปัญหาอยู่และยังเป็นเรื่องที่มีการศึกษากันมาอย่างต่อเนื่องในภาษาต่างๆ รวมถึงภาษาไทย สาหรับบทความนี้ได้ศึกษาคำว่า หัว โดยใช้วิธีการวิเคราะห์ความหมายแอบแฝง โดยใช้คำบริบทตำแหน่งต่างๆ ในการช่วยแยกความหมาย ผลการศึกษาพบว่า คำบริบทที่อยู่ติดกับคำเป้าหมายและมีกรอบหน้าต่างหรือระยะห่างไม่มากช่วยให้ระบบแยกความหมายได้ดีกว่าคำบริบทที่ใช้กรอบหน้าต่างมาก และคำบริบททางซ้ายช่วยให้ระบบแยกความหมายได้ดีกว่าบริบททางขวา เนื่องจากคำบริบททางซ้ายที่เป็นตัวช่วยบ่งชี้ความหมายมักปรากฏร่วมกับความหมายใดความหมายหนึ่ง ในขณะที่คำบริบททางขวาบางคำจะไปปรากฏร่วมกับความหมายอื่นด้วย รวมถึงบริบททางขวามีการจับคู่คำที่เป็นคำกับช่องว่างมากกว่าบริบททางซ้ายจึงส่งผลให้ประสิทธิภาพของระบบเมื่อใช้บริบททางขวาลดลง นอกจากนี้ การใช้แยกนัยความหมายในที่นี้ยังได้ผลไม่ดีนัก (ถูกต้อง 41.63%) สาเหตุน่าจะมาจากใช้เพียงรูปคำอย่างเดียวและจำนวนตัวอย่างที่ใช้ก็ไม่มากนัก

Article Details

บท
บทความวิจัย

References

ราชบัณฑิตยสถาน. (2556). พจนานุกรมฉบับราชบัณฑิตยสถาน พ.ศ.2554. กรุงเทพฯ: นานมีบุ๊คส์พับลิเคชั่นส์.

วิโรจน์ อรุณมานะกุล. (2545). Thai Word Segmentation. Retrieved from https://pioneer.chula.ac.th/~awirote/resources/thai-word-segmentation.html
Agirre, E. and Edmonds, P. (2007). Introduction. In Agirre, E. and Edmonds, P. (eds.). Word Sense Disambiguation Algorithms and Application.

Clarke, D. (2007). Context-theoretic Semantics for Natural Language an Algebraic Framework (Doctor of Philosophy’s thesis). University of Sussex, Brighton.

Deerwester, S., Dumais, S.T., Furnas, G.W., Landauer, T.K., and Harshman, R. (1990). Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science 41(6), pp. 391-407.

Dunning, T. (1993). Accurate methods for the statistics of surprise and coincidence. Computational Linguistics 19(1).
Evans, V. and Tyler, A. (2003). Towards a Theory of Principled Polysemy: The Case of In. ICLC 2003.

Firth, J.R. (1957). Papers in Linguistics (1934-1951). London: Oxford University Press.

Harris, Z. (1968). Mathematical Structures of Language. New York; Krieger.

Kanokrattananukul, W. (2001). Word Sense Disambiguation in Thai Using Decision List Collocation (Master of Arts Degree Thesis, Linguistics) Chulalongkorn University, Bangkok.

Landauer, T.K., Laham, D., and Foltz, P. (1998). Learning Human-like Knowledge by Singular Value Decomposition: A Progress Report. In Report, M.I., Jordan, M.J., Kearns & S.A. Sollar (eds.). Advances in Neural Information Processing Systems 10. Cambridge: MIT Press.

Lloyd, S.P. (1982). Least squares quantization in PCM. In IEEE Transactions on Information Theory, 28 (2): 129-137.
Pongpinigpinyo, S. and Rivepiboon, W. (2005). Distributional Semantic Approach to Thai Word Sense Disambiguation, In International Journal of Computational Intelligence Vol. 2 No.3 2005.

Ravin, Y. and Leacock, C. (2006). Polysemy: An Overview. In Ravin, Y. and Leacock, C. (eds.) Polysemy: Theoretical and Computational Approaches. New York: Oxford University Press.