ใครทำ Speech Recognition

คือว่าพอดีผมกำลังทำโปรเจคจบเกี่ยวกับ Speech Recognition เป็นภาษาไทย ผมได้ลองศึกษา ขั้นตอน วิธีการทำ อัลกอลิทึม ที่ต้องใช้มาบ้างแล้ว แต่พอผมจะเริ่มเขียนโปรแกรมปุ๊บ ผมก็ติดปัญหาทันที คือ ผมไม่รู้ว่าจะใช้ภาษาใดในการเขียน (ไม่รู้ว่าภาษาใดสามารถทำงานกับไฟล์เสียงได้) ไม่รู้ว่าภาษานั้นๆ จะมีวิธีการใด ในการดึงเอาค่า ความถี่ สเปคตรัม หรือข้อมูลอื่นๆ ที่จำเป็นสำหรับขั้นตอนการรู้จำ ออกมาจากไฟล์เสียง ให้กลายเป็นตัวเลข เพื่อนำไปใช้งานเขียนโปรแกรมต่อไป หรือต้องใช้อะไรพิเศษนอกจากตัวภาษามาช่วยหรือเปล่าครับ(ผมเคยเห็น บางบทความบอกว่าใช้ C, JAVA แต่ผมไม่รู้จะดึงค่าต่างๆ ของเสียงออกมาได้อย่างไร) ผมติดปัญหานี้มานานมากแล้วครับ ขอคำชี้แนะด้วยครับขอบคุณเป็นอย่างสูงครับ

ใน sourceforge น่าจะมีงานเกี่ยวกับพวก pattern recognition เยอะ ตอนผมทำใช้จาวา แต่ไม่ได้ทำ speech เพราะใน mac มันมีอยู่แล้ว หลังจากลองใช้งานพบว่าค่อนข้างยากกว่ามันจะตอบสนอง(ขนาดมืออาชีพทำ) ทีนี้คิดถึงตอนคุณสอบโปรเจคสิครับ ถ้ามันไม่ work ก็สนุกไปอีกแบบ แต่ถ้า work ก็เยี่ยมมากเลย เพราะเสียงพูดมันหลากหลายกว่าตัวอักษรมากมายนัก ไหนจะคำ โทนเสียง สำเนียง noise ความยาวสั้นของเสียง ความดังค่อย จังหวะ (ลองพูดคำว่า กา ในรูปแบบต่างๆกันยังได้มากกว่า 20 แบบ)ถ้ามีเวลาไม่ถึงปีแล้วยังไม่ได้เริ่มเลยก็ทุ่มเทให้หนักหน่อยแล้วกันนะครับ ไม่ได้จะขัดขวางแต่ทำมาแล้วเลยรู้ว่า..ยากจริง!
ลองอ่าน blognone เรื่องที่ microsoft ทำ multitouch (ข่าวช่วง 3-4 มีนา) เผื่อเป็นแรงบันดาลใจนะครับ

เคยทำสมัยปริญญาโทครับ มีงานเกี่ยวกับ Language Model นิดหน่อยครับ (นิดเดียวจริงๆ ใช้ Tool ที่หาได้ทั่วๆ ไป)

ถ้าในทางวิจัย ปกติจะใช้ HTK (Hidden Markov Model Toolkit) ในการ Train และสร้างโมเดลต่างๆ ครับ

ส่วนในการ Decode (หรือ Recognize) จะใช้ Julius ก็ได้ครับ ว่าแต่เคยอ่าน Tutorial ภาษาไทยที่นี่รึยังครับ

ถ้าอยากคุยละเอียดๆ ลองติดต่อ ดร.ชัย วุฒิวิวัฒน์ชัย หัวหน้าหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา ของ NECTEC ดูนะครับ เห็นว่าทาง NECTEC มีการพัฒนา Engine ขึ้นมาเองแล้วด้วย

ป.ล. ค้น Google เจอ VIDEO จาก Conference ด้วยครับ

ย้าย Codenone

ประกาศย้าย Codenone ไปใช้ Forum ของ Blognone แทนครับ ตามไปตั้งกระทู้ต่อได้ที่ Codenone Forum (รายละเอียดอ่านจากกระทู้ ย้าย Codenone ไปรวมกับ Blognone)

กระทู้เก่าๆ จะย้ายตามไปในภายหลัง ตอนนี้ปิดการโพสต์กระทู้ไว้ เหลือไว้เฉพาะอ้างอิงเท่านั้น