ศักยภาพพื้นฐานของการประมวลผลภาษาไทย
นักวิจัย  
รศ.ดร.สรณะ นุชอนงค์
ดร. แคน อุดมเจริญชัยกิจ
นางสาว ลลิตา โล่พันธุ์ศิริกุล
นาย วรรณพงษ์ ภัททิยไพบูลย์
 
สถานภาพสิทธิบัตร
ลิขสิทธิ์
ที่มา ข้อมูลเบื้องต้น ความสำคัญของปัญหา
ศักยภาพในการประมวลผลภาษาไทยซึ่งเป็นภาษาประจำชาติมีความสำคัญต่อการพัฒนาเศรษฐกิจและสังคมไทยเป็นอย่างยิ่ง อย่างไรก็ตามเมื่อเปรียบเทียบกับภาษาของชาติอื่นๆที่มีความเจริญก้าวหน้าทางเทคโนโลยีและเศรษฐกิจ เช่น ภาษาอังกฤษ ภาษาจีน ภาษาญี่ปุ่น ภาษาไทยยังนับเป็นภาษาที่มีทรัพยากรน้อยและต้องการการพัฒนาเทคโนโลยีภาษาอย่างยิ่งยวด ในช่วงปี 2019-2022 สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย ภายใต้ความร่วมมือระหว่างสถาบันวิทยสิริเมธี และสำนักงานส่งเสริมเศรษฐกิจดิจิทัล ได้จัดทำชุดข้อมูลและโมเดลปัญญาประดิษฐ์สำหรับการพัฒนาศัยกภาพการประมวลผลพื้นฐานของภาษาไทยขึ้น และแจกจ่ายในลักษณะ opensource เพื่อเป็นสาธารณะประโยชน์
สรุปและจุดเด่นเทคโนโลยี
เทคโนโลยีพื้นฐานของการประมวลผลภาษาไทยที่ได้จัดทำขึ้นแบ่งเป็น 4 ชนิดได้แก่
1. โมเดลภาษา ซึ่งเป็นเทคโนโลยีที่ช่วยในการทำให้เข้าใจภาษาและความหมายของคำต่างๆ
● โมเดลภาษาไทย (WangchanBERTa)
2. โมเดลประมวลผลในระดับประโยคหรือข้อความ ซึ่งเป็นเทคโนโลยีที่จะทำให้การประมวลภาษาไทยในระดับประโยคหรือข้อความมีความแม่นยำมากยิ่งขึ้น
●Sentence Representation
●Text classification
●Machine Translation
3. โมเดลจำแนกคำ ซึ่งเป็นเทคโนโลยีพื้นฐานในการทำให้คอมพิวเตอร์ประมวลผลในระดับของคำ และสามารถเข้าใจคำพูดและความหมายนั้นๆ
●Word Tokenization
●Named Entity Recognition
4. โมเดลทางด้านเสียงซึ่งเป็นเทคโนโลยีที่ทำให้คอมพิวเตอร์เข้าใจในเสียงพูดและอารมณ์ของเสียงนั้นๆ
●Automatic Speech Recognition
●Speech Emotion Recognition
จุดเด่นของเทคโนโลยี
●โมเดลปัญญาประดิษฐ์ประสิทธิภาพสูง
●สามารถรองรับการใช้งานภาษาไทย โดยใช้เทคนิคเทคโนโลยีการประมวลผลภาษาธรรมชาติจากงานวิจัยสมัยใหม่
●สามารถนำไปพัฒนาต่อยอดเป็นแอปพลิเคชัน หรือเทคโนโลยีใหม่ได้โดยไม่มีข้อผูกมัด ผ่านลิขสิทธิ์แบบโอเพนซอร์ส
ความร่วมมือที่เสาะหา
เสาะหาผู้ร่วมวิจัยพัฒนา
สถานภาพของผลงานวิจัย
ต้นแบบระดับ pilot scale ได้ถูกทดสอบในสภาวะทำงานจริง
เงื่อนไข
เทคโนโลยีต่อรองราคา
สนใจสอบถามข้อมูล
รศ.ดร.สรณะ นุชอนงค์
โทรศัพท์ 033-014-300
Email snutanon@vistec.ac.th
Vidyasirimedhi Institute of Science and Technology (VISTEC)

คุณต้องการขอรับถ่ายทอดเทคโนโลยี "ศักยภาพพื้นฐานของการประมวลผลภาษาไทย"