การพัฒนาโมเดลการเลียนเสียงเชิงลึกในการประยุกต์ใช้งานด้านสงครามไซเบอร์

Main Article Content

พายัพ ศิรินาม
ประสงค์ ปราณีตพลกรัง

บทคัดย่อ

การวิจัยนี้มีวัตถุประสงค์ 1) เพื่อศึกษาแนวทางการประยุกต์ใช้งานเทคโนโลยีการเลียนแบบเสียงเชิงลึกของมนุษย์ในงานทั่วไป 2) เพื่อศึกษาโมเดลในการพัฒนาตัวแบบการเลียนแบบเสียงเชิงลึกของมนุษย์ที่มีความเหมาะสมสำหรับการใช้งานภาษาไทย 3) เพื่อวิเคราะห์และประเมินประสิทธิภาพของเสียงที่ถูกเลียนแบบ เมื่อถูกนำมาใช้จริงกับผู้ใช้งานในระบบอินเทอร์เน็ต และ 4) เพื่อนำเสนอแนวทางการใช้งานเทคโนโลยีการเลียนแบบเสียงเชิงลึกของมนุษย์ในงานด้านสงครามไซเบอร์ (Cyber Warfare)


ผลการศึกษาพบว่า การประยุกต์ใช้งานเทคโนโลยีการเลียนแบบเสียงเชิงลึก (การเลียนแบบเสียงโดยใช้การเรียนรู้เชิงลึก) ของมนุษย์ในงานทั่วไปโดยเฉพาะกรณีเสียงพูดเป็นภาษาอังกฤษ สามารถใช้โมเดลการสังเคราะห์เสียงของมนุษย์ จากประโยคข้อความต่าง ๆ (Text-to-speech Synthesis) ได้ ถึงอย่างไรก็ตาม โมเดลดังกล่าวมีข้อจำกัดสำคัญ คือ ความต้องการข้อมูลคู่ขนานรวมถึงระยะเวลาในการเตรียมการฝึกฝนโมเดลที่ใช้ภาษาไทย โดยงานวิจัยนี้ ผู้วิจัยทำการศึกษาและเสนอแนะแนวทางการพัฒนาและประยุกต์ใช้โมเดลการเลียนเสียงเชิงลึกสำหรับงานด้านสงครามไซเบอร์ผ่านการใช้โมเดลแกน (GAN Model) เพื่อก้าวข้ามข้อจำกัดของโมเดลการสังเคราะห์เสียงของมนุษย์จากประโยคข้อความ


ผลการศึกษาพบว่า โมเดล StarGAN-VC และ CycleGAN-VC สามารถใช้ในการแปลงเสียงของบุคคลทั่วไปให้กลายเป็นบุคคลเป้าหมาย เช่น นักการเมือง ผู้บริหารประเทศ เพื่อสร้างข่าวปลอมในสงครามไซเบอร์ได้และมีค่าคุณภาพเสียงสำหรับการรับฟัง (Mean Opinion Score: MOS) สูงสุดที่ 3.59 และมีศักยภาพในการหลอกลวงผู้ใช้งานอินเทอร์เน็ตให้หลงเชื่อว่าเสียงที่ถูกปลอมแปลงเป็นเสียงของบุคคลเป้าหมายจริง โดยในกรณีที่ร้ายแรงที่สุด กลุ่มตัวอย่าง ร้อยละ 40 ถูกหลอกลวงด้วยเสียงปลอมแปลง ผลการศึกษาดังกล่าวเน้นย้ำและสร้างความตระหนักต่อภัยคุกคามรูปแบบใหม่รวมถึงการแสวงหาแนวทางการตรวจจับและป้องกันเสียงปลอมแปลงที่อาจกระทบต่อความมั่นคงของชาติในอนาคต

Article Details

ประเภทบทความ
บทความวิจัย

เอกสารอ้างอิง

Allcott, H., & Gentzkow, M. (2017). Social media and fake news in the 2016 election. Journal of economic perspectives, 31(2), 21-36.

Cooke, N. A. (2017). Posttruth, truthiness, and alternative facts: Information behavior and critical information consumption for a new age. The library quarterly, 87(3), 211-221.

Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2020).

Generative adversarial networks. Communications of the ACM, 63(11), 139-144.

Jia, Y., Zhang, Y., Weiss, R.J., Wang, Q., Shen, J., Ren, F., ...Wu, Y. (2018). Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis. NeurIPS, 1-11.

Kameoka, H., Kaneko, T., Tanaka, K., & Hojo, N. (2018). Stargan-vc: Non- parallel many-to-many voice conversion using star generative adversarial networks. In The Institute of Electrical and Electronics Engineers (Ed.), 2018 IEEE Workshop Spoken Language Technology Workshop (SLT) (p.266-273). IEEE

Kaneko, T., & Kameoka, H. (2018). Cyclegan-vc: Non-parallel voice conversion using cycle-consistent adversarial networks. In 26th European Signal Processing Conference (EUSIPCO) (p.2100-2104).

Karlsen, R., & Aalberg, T. (2021). Social Media and Trust in News: An Experimental Study of the Effect of Facebook on News Story Credibility. Digital Journalism, 1-17.

Kietzmann, J., Lee, L. W., McCarthy, I. P., & Kietzmann, T. C. (2020). Deepfakes: Trick or treat?.Business Horizons. 63(2), 135-146

LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep Learning. Nature, 521(7553), 436-444.

Li, J. (2018). Cyber security meets A.I.: A survey. Frontiers of Information Technology & Electronic Engineering, 19(12), 1462-1474.

Panayotov, V., Chen, G., Povey, D., & Khudanpur, S. (2015). Librispeech : an asr corpus based on public domain audio books. In The Institute of Electrical and Electronics Engineers (Ed.). 2015 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) (p.5206-5210).

Ren, Y., Hu, C., Tan, X., Qin, T., Zhao, S., Zhao, Z., ...Liu, T. (2021). FastSpeech 2: Fast and High-Quality End-to-End Text to Speech.

Sindermann, C., Cooper, A., & Montag, C. (2020). A short review on susceptibility to falling for fake political news. Current opinion in psychology, 36, 44-48.

Streijl, R. C., Winkler, S., & Hands, D. S. (2016). Mean opinion score (MOS) revisited: methods and applications, limitations and alternatives. Multimedia Systems, 22(2), 213-227.