Evaluation of Concept Drift in Poisson Big Data Stream using Adaptive Sliding Windows

Chanintorn Jittawiriyanukoon; Vilasinee Srisarkun

ผู้แต่ง

Chanintorn Jittawiriyanukoon มหาวิทยาลัยอัสสัมชัญ
Vilasinee Srisarkun มหาวิทยาลัยอัสสัมชัญ

คำสำคัญ:

การจัดการข้อมูลขนาดใหญ่, การเปลี่ยนรูปแบบของข้อมูล, การกระจายปัวซอง, การปรับค่าหน้าต่าง

บทคัดย่อ

ข้อมูลขนาดใหญ่ที่มีรูปแบบเปลี่ยนแปลงแบบไดนามิกในช่วงเวลาใดเวลาหนึ่งมักก่อให้เกิดปัญหาสำคัญในการดูแลจัดการข้อมูลที่มีขนาดใหญ่นั้นเสมอ งานวิจัยนี้ใช้การปรับค่าหน้าต่างเพื่อรองรับและประเมินผลของข้อมูลที่มีรูปแบบเปลี่ยนแปลงแบบไดนามิกว่าจะมีผลต่อหน่วยความจำมากน้อยเพียงใด การปรับเปลี่ยนค่าหน้าต่างเพื่อรักษาสมดุลขนาดของหน้าต่างให้เหมาะสมกับการดำเนินการกับสตรีมข้อมูลล่าสุดที่มีรูปแบบการเข้ามาสัมพันธ์กับการกระจายแบบปัวซอง ทั้งนี้ขึ้นอยู่กับกฎเกณฑ์และขอบเขตที่กำหนดไว้ในแต่ละอัลกอริธึมนั้นๆ เราจำเป็นที่ต้องศึกษาการเปลี่ยนรูปแบบของข้อมูล (concept drift) ซึ่งเป็นสิ่งจำเป็นสำหรับการจัดเก็บ เผยแพร่ข้อมูลรวมถึงการเชื่อมโยงข้อมูลไปยังส่วนอื่นๆ การเปลี่ยนรูปแบบของข้อมูลนี้จะมีผลโดยตรงกับการปรับเปลี่ยนขนาดของหน้าต่างและการปรับค่าสถิติต่างๆโดยคำนวณได้จากข้อมูลล่าสุด การจำลองการทำงานดังกล่าวทั้งสำหรับข้อมูลรูปแบบคงที่และข้อมูลที่มีรูปแบบปลี่ยนแปลงแบบไดนามิกและต่อเนื่อง การปรับค่าหน้าต่างถูกนำมาประยุกต์ใช้ในการประมวลผลและจัดการข้อมูลดังกล่าว งานวิจัยนี้ได้นำเสนอข้อมูลที่มีรูปแบบการเข้ามาแบบการกระจายปัวซองและการกระจายแบบสุ่ม นำมาวิเคราะห์หาประสิทธิภาพโดยใช้เครื่องมือที่เรียกว่า MOA (Massive Online Analysis) ผลการวิเคราะห์พบว่าStaggerอัลกอริธึมมีประสิทธิภาพเหนือกว่าและมีความแม่นยำสูงสุดเมื่อนำมาใช้ร่วมกับขอบเขตของ Hoeffding ส่วนขอบเขตของBayes นั้นเหมาะกับรูปแบบการเข้ามาของข้อมูลที่มีการกระจายแบบปัวซองมากกว่า

เอกสารอ้างอิง

Albert, Bifet., Eibe, Frank., Geoffrey, Holmes. & Bernard, Pfahringer. (2007). Accurate Ensembles for Data Streams Combining Restricted Hoeffding Trees Using Stacking. Journal of Machine Learning Research, 225-240.

Albert, Bifet., Geoff, Holmes., Richard, Kirkby. & Bernhard, Pfahringer. (2010). MOA: Massive Online Analysis. Journal of Machine Learning Research 11, 1601-1604.

Amreen, Khan. & Kamal, K. Ahirwar. (2011). Mobile Cloud Computing as a Future of Mobile Multimedia Database. International Journal of Computer Science and Communication, 2(1): 219-221.

Bose et al. (2013). Dealing With Concept Drifts in Process Mining. IEEE Transactions on Neural Networks and Learning Systems,1-18. (DOI: 10.1109/TNNLS.2013.2278313)

C, Jittawiriyanukoon. (2014). Performance evaluation of reliable data scheduling for Erlang multimedia in cloud computing. Ninth International Conference on Digital Information Management (ICDIM), 39-44. (DOI: 10.1109/ICDIM.2014.6991394)

Cunningham, P., Nowlan, N., Delany, S. J. & Haahr, M. (2003). A Case-Based Approach to Spam Filtering that Can Track Concept Drift. Proceedings of ICCBR, Workshop on Long-Lived CBR Systems.

G, Hulten., L, Spencer. & P, Domingos. (2001). Mining Time-Changing Data Streams. ACM Press, San Francisco, CA, 97-106. https://www.ibm.com

J, C. Schlimmer. & R, H. Granger. (1986). Incremental Learning from Noisy Data. Machine Learning, 1(3): 317–354.

Koo et al. (1999). Analysis of Erlang Capacity for the Multimedia DS-CDMA Systems. IEICE Transaction Fundamentals, E82-A(5): 849-855.

Ludmila, I. Kuncheva. (2004). Classifier Ensembles for Changing Environments. Lecture Notes in Computer Science, Springer, 1–15.

Srimani & Patil. (2016). Mining Data Streams with Concept Drift in Massive Online Analysis Frame Work. WSEAS Transaction on Computers, 15: 133-142.

Victoria, J. Hodge. (2014). Outlier Detection in Big Data. IGI Global, 1762-1771. (DOI: 10.4018/978-1-4666-5202-6.ch157)W, N. Street. & Y, Kim. (2001). A Streaming Ensemble Algorithm for Large-Scale Classiﬁcation. Proceeding of 7th ACM SIGKDD Intl. Conf. on Knowledge Discovery and Data Mining, ACM Press, New York, USA, 377-382.

Wang, H., Fan, W., Yu, P.S. & Han, J. (2003). Mining Concept-Drifting Data Streams using Ensemble Classifiers. 9th ACM SIGKDD Intl. Conf. on Knowledge Discovery and Data Mining KDD, ACM Press, 226-235.

ผู้แต่ง

คำสำคัญ:

บทคัดย่อ

เอกสารอ้างอิง

ดาวน์โหลด

เผยแพร่แล้ว

รูปแบบการอ้างอิง

ฉบับ

ประเภทบทความ

Submissions

journalinfo

Information

Document for Submissions

indexedin

ภาษา