SCB 10X เปิดตัว “Typhoon Isan” AI โมเดล ASR ภาษาอีสานที่สามารถถอดเสียงและสะกดคำอย่างเป็นระบบรายแรก และ Open-Source Data ภาษาอีสาน ตั้งเป้าพัฒนา AI ที่เข้าใจภาษาทุกถิ่น ทุกสำเนียง
สำหรับโครงการ Typhoon Isan ของ เอสซีบี เท็นเอกซ์ (SCB 10X) เป็นโมเดลถอดเสียงเป็นข้อความภาษาถิ่นที่สร้างขึ้นเพื่อตอบโจทย์ Pain Point โมเดลถอดเสียงเป็นตัวอักษร (ASR) ในปัจจุบันยังไม่สามารถรองรับ “ภาษาถิ่น” ได้อย่างมีประสิทธิภาพ โดยเฉพาะภาษาที่มีการเก็บข้อมูลในระบบดิจิทัลน้อยมาก เมื่อผู้ใช้สื่อสารด้วยภาษาถิ่น โมเดล AI จึงไม่สามารถถอดคำพูดหรือสำเนียงของภาษาถิ่นได้อย่างถูกต้อง
นอกจากนี้ จากข้อมูลพบว่าประเทศไทยมีผู้ใช้งานภาษาอีสานราว 20 ล้านคน คิดเป็นหนึ่งในสามของประชากรทั้งประเทศ อีกทั้งภาคอีสานสามารถสร้างมูลค่า GDP รวมกว่า 180,000 ล้านบาท หรือประมาณ 10% ของมูลค่าเศรษฐกิจไทย และยังมีแรงงานที่ใช้ภาษาอีสานทำงานในหลากหลายอุตสาหกรรม และมีวัฒนธรรมที่เป็นเอกลักษณ์
อย่างไรก็ตาม ภาษาอีสานเป็นภาษาพูดที่ยังไม่มีมาตรฐานการเขียนที่ชัดเจน การบันทึกเสียงและคำพูดภาษาอีสานได้อย่างเป็นระบบจึงถือเป็นก้าวสำคัญในการรักษาภูมิปัญญาและวัฒนธรรม อันจะนำไปสู่การช่วยส่งเสริมเศรษฐกิจดิจิทัลของประเทศในระยะยาว
ทั้งนี้ ทีมวิจัยและพัฒนาของ SCB 10X ได้พัฒนาโครงการ Typhoon Isan เป็นโครงการวิจัยแบบเปิด (Open-Source AI Initiative) ที่มุ่งสร้างและเผยแพร่โมเดล AI เชิงวิจัย (Research-driven) ที่เข้าใจภาษา วัฒนธรรม และเสียงพูดในบริบทของประเทศไทยอย่างแท้จริง โครงการนี้เกิดจากความร่วมมือระหว่างทีมวิจัยของ SCB 10X กับนักภาษาศาสตร์ ผู้เชี่ยวชาญด้านภาษา ครู นักเรียน และชุมชนท้องถิ่น เพื่อสร้างมาตรฐานใหม่ให้กับภาษาอีสานในโลกดิจิทัล
ภายในงาน “TYPHOON เฮ็ดให้ AI ใจอีสาน” ได้เปิดตัวผลงานวิจัยหลัก ได้แก่ Typhoon Isan ASR (Automatic Speech Recognition) โมเดลโอเพนซอร์สที่สามารถถอดเสียงภาษาอีสานออกมาเป็นข้อความได้อย่างแม่นยำ และเปิดเผยเบื้องหลังพร้อมชุดสาธิตของ Typhoon Isan TTS (Text-to-Speech) โมเดลแปลงข้อความเป็นเสียงพูด ที่สามารถพูดภาษาอีสานได้อย่างเป็นธรรมชาติ พร้อมปล่อยชุดข้อมูลภาษาอีสานแบบเปิดที่วิจัยและจัดเก็บอย่างเป็นระบบ (Open Data) ประกอบด้วย
- Isan Speech Transcription Convention แนวทางการถอดเสียงภาษาอีสานเป็นข้อความสำหรับการสร้างชุดข้อมูลเพื่องานด้านเทคโนโลยีทางเสียง
- Isan Spelling Standard อักขรวิธีการสะกดคำภาษาอีสานด้วยอักษรไทย
- Isan Speech Corpus ชุดข้อมูลเสียงพูดภาษาอีสานจากหลายจังหวัดในภาคตะวันออกเฉียงเหนือ
- Isan Phonetic Dictionary พจนานุกรมคำอ่านที่เชื่อมโยงคำกับการออกเสียงในภาษาอีสาน
โครงการ Typhoon Isan ถือเป็นอีกหนึ่งก้าวสำคัญของ SCB 10X ในการพัฒนาเทคโนโลยีที่สอดคล้องกับอัตลักษณ์ของคนไทย และตอกย้ำพันธกิจในการสร้าง AI ที่ครอบคลุม เข้าถึงได้ และสะท้อนเสียงของทุกคน




