หน้าแรก / บล็อก / เทคโนโลยีสั่งด้วยเสียง
เทคโนโลยีสั่งด้วยเสียงในร้านค้า
ทำงานอย่างไร?
Speech-to-Text รู้จักตัวเลขภาษาไทยได้อย่างไร และทำไมถึงเร็วกว่ากดแป้นพิมพ์
20 พ.ค. 2569
Speech-to-Text คืออะไร?
Speech-to-Text (STT) คือเทคโนโลยีแปลงเสียงพูดเป็นข้อความ มือถือ Android ทุกรุ่นมี STT built-in ผ่าน Google Speech API VoxyQR ใช้ STT ของ Android ที่รู้จักภาษาไทยได้ดีมาก แล้วแปลงผลลัพธ์เป็นตัวเลขอีกชั้นหนึ่ง
ขั้นตอนการทำงาน
รับเสียง
ไมโครโฟนบนมือถือรับคลื่นเสียงที่คุณพูด
แปลงเสียงเป็นข้อความ
Android STT แปลง 'หกสิบห้า' เป็น text ภาษาไทย
แปลง text เป็นตัวเลข
แอป parse 'หกสิบห้า' → 65 รองรับตัวเลขซับซ้อน เช่น 'หนึ่งพันสองร้อยห้าสิบ'
แสดงยืนยัน
แอปแสดงตัวเลขให้คุณยืนยันก่อนสร้าง QR
ทำไมเร็วกว่ากดแป้น?
การพูด "สามสิบห้า" ใช้เวลาประมาณ 0.8 วินาที การกดแป้น 3 → 5 ใช้เวลาประมาณ 2–3 วินาที (ถ้าต้องเปิดหน้าคิดเงินก่อน) ยิ่งรายการเยอะ ความต่างยิ่งชัด
นอกจากความเร็ว การพูดยังลด cognitive load — ไม่ต้องจำตัวเลข ไม่ต้องมองแป้น พูดไปทำงานไป
ข้อจำกัดที่ควรรู้
⚠️ ต้องมีเสียงชัด
ในสถานที่เสียงดังมาก อาจต้องพูดดังขึ้นหรือใช้ลำโพงพกพาช่วย
⚠️ ภาษาไทยเท่านั้น
ตอนนี้รองรับตัวเลขภาษาไทยเท่านั้น ยังไม่รองรับภาษาอื่น
⚠️ STT ต้องการเน็ต
Google STT ต้องการอินเทอร์เน็ตบางส่วน ถ้าออฟไลน์ใช้ on-device model แทนซึ่งแม่นยำน้อยกว่าเล็กน้อย