หน้าแรก / บล็อก / เทคโนโลยีสั่งด้วยเสียง

เทคโนโลยี

สั่งด้วยเสียงในร้านค้า
ทำงานอย่างไร?

Speech-to-Text รู้จักตัวเลขภาษาไทยได้อย่างไร และทำไมถึงเร็วกว่ากดแป้นพิมพ์

20 พ.ค. 2569

Speech-to-Text คืออะไร?

Speech-to-Text (STT) คือเทคโนโลยีแปลงเสียงพูดเป็นข้อความ มือถือ Android ทุกรุ่นมี STT built-in ผ่าน Google Speech API VoxyQR ใช้ STT ของ Android ที่รู้จักภาษาไทยได้ดีมาก แล้วแปลงผลลัพธ์เป็นตัวเลขอีกชั้นหนึ่ง

ขั้นตอนการทำงาน

1

รับเสียง

ไมโครโฟนบนมือถือรับคลื่นเสียงที่คุณพูด

2

แปลงเสียงเป็นข้อความ

Android STT แปลง 'หกสิบห้า' เป็น text ภาษาไทย

3

แปลง text เป็นตัวเลข

แอป parse 'หกสิบห้า' → 65 รองรับตัวเลขซับซ้อน เช่น 'หนึ่งพันสองร้อยห้าสิบ'

4

แสดงยืนยัน

แอปแสดงตัวเลขให้คุณยืนยันก่อนสร้าง QR

ทำไมเร็วกว่ากดแป้น?

การพูด "สามสิบห้า" ใช้เวลาประมาณ 0.8 วินาที การกดแป้น 3 → 5 ใช้เวลาประมาณ 2–3 วินาที (ถ้าต้องเปิดหน้าคิดเงินก่อน) ยิ่งรายการเยอะ ความต่างยิ่งชัด

นอกจากความเร็ว การพูดยังลด cognitive load — ไม่ต้องจำตัวเลข ไม่ต้องมองแป้น พูดไปทำงานไป

ข้อจำกัดที่ควรรู้

⚠️ ต้องมีเสียงชัด

ในสถานที่เสียงดังมาก อาจต้องพูดดังขึ้นหรือใช้ลำโพงพกพาช่วย

⚠️ ภาษาไทยเท่านั้น

ตอนนี้รองรับตัวเลขภาษาไทยเท่านั้น ยังไม่รองรับภาษาอื่น

⚠️ STT ต้องการเน็ต

Google STT ต้องการอินเทอร์เน็ตบางส่วน ถ้าออฟไลน์ใช้ on-device model แทนซึ่งแม่นยำน้อยกว่าเล็กน้อย

ลองพูดสั่งด้วยตัวเองได้เลย

ทดลองฟรี 15 วัน ไม่ต้องใส่บัตร

ดาวน์โหลดฟรี