Thai sentences segmentation

19 Aug 2007

คุณวีร์คิดได้เสนอความคิดว่า หลายๆภาษามีสัญลักษณ์หรือตัวอักษรที่บ่งบอกจุดสิ้นสุดของประโยคอยู่ภายในตัวภาษา เช่นภาษาอังกฤษที่มีเครื่องหมายจุดฟูลสต็อปเป็นเครื่องหมายบอกจุดสิ้นสุดประโยค แต่สำหรับภาษาไทยที่ไม่มีสัญลักษณ์นี้ ถ้าเราให้ผู้อ่านแต่ละคนทดลองทำการตัดประโยคโดยการเพิ่มตัวอักษรพิเศษเช่นฟูลสต็อปเข้าไป ผลลัพธ์ที่ได้จากการตัดประโยคของผู้อ่านแต่ละคนอาจจะได้ผลลัพธ์ที่ต่างกัน

จากความคิดของผม สาเหตุที่เกิดความแตกต่างกันเพราะธรรมชาติของภาษาไทยเป็นภาษาที่ค่อนข้างอิสระ การตัดประโยคเกิดจากความรู้สึกและสัญชาตญาณมากกว่าจะเกิดขึ้นจากกฏเกณฑ์ ผลที่ได้จึงแตกต่างกันตามสภาพแวดล้อม ความเชี่ยวชาญ และความรู้ของผู้ตัดประโยคแต่ละคนว่าทำให้เกิดหลักเกณฑ์ในการตัดประโยคอย่างไร

จากการทดลองอ่านข้อความที่ถูกตัดประโยคแล้วพบว่า ความเร็วในการอ่านโดยรวม และความต่อเนื่องในการอ่านในแต่ละประโยคนั้นลดลงอย่างเห็นได้ชัด เวลาอ่านไม่รู้สึกไหลลื่นเหมือนอ่านข้อความปกติ

ผมถามเพื่อนว่าภาษาเขมรมีตัวแบ่งประโยคหรือเปล่า. เขาก็ว่ามี. ถามมาหลายคนหลายภาษาแล้ว. เขาก็ว่ามีหมด. ลองดูในวิกิพีเดียลาว ก็ปรากฎว่ามีตัวแบ่งประโยคเช่นกัน. จำได้ว่าป๋าเทพเคยกล่าวถึงว่าอาจจะใช้ ๛ (โคมูตร) มาเป็นตัวจบประโยคดูก็ได้ แต่ว่าแหมมันกดยากเหมือนกัน.

นักภาษาศาสตร์บางท่านชี้ว่า, ภาษาไทยอาจจะไม่มีขอบเขตประโยคที่แน่นอน. ให้คนไทยด้วยกันเองลองแบ่งประโยคออกมา, ก็อาจจะไม่ตรงกัน. ผมออกจะเชื่อตามนั้น. แต่ว่ากันยังอยากจะลองเองอยู่ดีว่า, ถ้าลองแบ่งประโยคดูแล้วจะเป็นอย่างไร.

จาก ชิลๆ 

เวลาที่ผมอ่าน ทุกครั้งที่เจอกับเครื่องหมายแบ่งประโยค ซึ่งในที่นี้คือ ลูกน้ำและจุด จะเว้นหายใจอยู่ประมาณ 1 วินาทีก่อนจะอ่านประโยคถัดไป เวลาอ่านเลยรู้สึกว่าเหนื่อยกว่าปกติมากๆ เพราะแบ่งช่วงหายใจถี่ สาเหตุก็คงจะเป็นเพราะไม่เคยชินกับภาษาไทยแบบนี้ แต่เคยชินกับการหยุดหายใจเมื่อใช้เครื่องหมายลูกน้ำซึ่งใช้เพื่อแจกแจงสมาชิกมากกว่า

ตอนนี้ยังไม่ได้ลองเอาไปคิดดูว่าถ้าตัดประโยคได้แล้วจะนำไปใช้อะไรได้บ้าง แต่คิดว่ามันน่าจะมีประโยชน์แน่ๆ อย่างน้อยก็น่าจะเป็นพวก Data Visualization เพื่อวิเคราะห์รูปแบบประโยคในงานประพันธ์ต่างๆ หรือไม่ก็เอาไปช่วยในงาน Natural Language Processing ได้ล่ะมั้ง

Comments

อ่านแล้วรู้สึกเหมือนตาวิ่งไปชนอะไรซักอย่างเข้า

Posted by .:: m3rLinEz ::. | Aug 20th, 2007 at 2:17 am | Reply

ปัญหานี้อดีตเจ้านายผมเคยไปนอนคิดอยู่พักนึง เพื่อหา universal word-breaking rule ที่เป็น grammar rule ปรากฎว่าเหลว (ฮา)เท่าที่ผมสัมผัสเป็นเพราะภาษาไทยนั้น undetermisnistic มากๆ เราตีความประโยคจากความหมายรวม ไม่ใช่ความหมายตามตัวอักษรเป๊ะๆ อย่างเช่น "เขาไปฟิตเนสบ่อยๆ", "เขามักจะไปฟิตเนส" มีความหมายแทบไม่ต่างกัน ในขณะที่ภาษาอังกฤษ "often" กับ "sometimes" สามารถตี % ความถี่ออกมาอย่างคร่าวๆ ได้

Posted by mk | Aug 20th, 2007 at 6:56 am | Reply

เป็นเพราะว่าเราใช้ความรู้สึก สัญชาตญาณ และความเคยชินมากกว่ากฏเกณฑ์ตายตัวรึเปล่าครับ

Posted by wiennat | Aug 21st, 2007 at 10:10 pm | Reply

เอาไว้ใช้แปลภาษาไทยน่าจะดี :D

Posted by iPAtS | Aug 23rd, 2007 at 8:16 pm | Reply

Post new comment

The content of this field is kept private and will not be shown publicly.