หุ่นยนต์ฝึก “ลิปซิงค์” ขยับปากได้เหมือนมนุษย์ แถมฝึกพูดได้ด้วยตัวเอง !!

นักวิจัยมหาวิทยาลัยโคลัมเบีย (Columbia University) สหรัฐอเมริกา พัฒนา “EMO” หุ่นยนต์หัวที่สามารถขยับริมฝีปากให้ตรงกับคำพูด และเรียนรู้การพูดแบบมนุษย์ได้เองนักวิจัยจากโคลัมเบีย ยูนิเวอร์ซิตี้ (Columbia University) ในสหรัฐอเมริกา เปิดตัว EMO หุ่นยนต์ที่สามารถ ขยับริมฝีปากให้ตรงกับคำพูดได้เหมือมนุษย์ (Lip-syncing) และสามารถฝึกพูดแบบมนุษย์ได้ด้วยตัวเอง“หุ่นยนต์หัว” ที่เลียนแบบใบหน้ามนุษย์อย่างละเอียดEMO มีลักษณะเป็นหัวหุ่นยนต์ ที่ออกแบบมาเพื่อเลียนแบบการแสดงออกทางสีหน้าของมนุษย์โดยเฉพาะ ใบหน้าของหุ่นยนต์หุ้มด้วยซิลิโคนที่ยืดหยุ่น ภายในติดตั้งมอเตอร์ขนาดเล็กไว้ 26 ตัว ทำหน้าที่ควบคุมการเคลื่อนไหวของปาก แก้ม และใบหน้าเมื่อมอเตอร์เหล่านี้ทำงานร่วมกันในรูปแบบต่าง ๆ EMO จะสามารถแสดงสีหน้าและรูปปากที่หลากหลายได้ ใกล้เคียงกับของมนุษย์จริง ๆการฝึก EMO ให้พูดได้เหมือนกับมนุษย์EMO ยังมีความสามารถในการฝึกพูดแบบมนุษย์ได้ด้วยตัวเอง โดยทางนักวิจัยจะวาง EMO อยู่หน้ากระจก และสุ่มขยับใบหน้าของตัวหัวหุ่นยนต์ให้ออกมาเป็นจำนวนหลายพันรูปแบบ พร้อมสังเกตการสะท้อนของตัวเอง วิธีนี้จะทำให้หุ่นยนต์เรียนรู้ว่า“การกระตุ้นมอเตอร์แบบใด จะทำให้เกิดการเคลื่อนไหวของใบหน้าแบบไหนได้บ้าง”กระบวนการเรียนรู้ลักษณะนี้เรียกว่า วิชั่นทูแอ็กชัน Vision-to-Action (VLA) ซึ่งก็คือ การเชื่อมโยงสิ่งที่เห็นกับการกระทำโดยไม่ต้องอาศัยกฎตายตัวจากมนุษย์เมื่อ EMO เข้าใจโครงสร้างใบหน้าของตัวเองแล้ว EMO จะถูกฝึกต่อด้วยการดูคลิปคนพูดและร้องเพลงเป็นเวลาหลายชั่วโมงบน YouTube เพื่อเรียนรู้ว่าเสียงพูดแต่ละแบบสัมพันธ์กับการขยับริมฝีปากอย่างไร จากนั้น AI ของหุ่นยนต์จะผสานความรู้จาก VLA เข้ากับเสียงที่ตัวหุ่นเปล่งออกมาจากระบบเสียงสังเคราะห์ ทำให้ EMO สามารถ ขยับริมฝีปากได้ตรงกับคำพูดของตัวเองอย่างเป็นธรรมชาติอย่างไรก็ตาม EMO ยังมีข้อจำกัดอีกหลายอย่าง ทั้งการออกเสียง “B” และ “W” ที่ยังไม่สมบูรณ์ รวมไปถึงการเคลื่อนไหวบางจุดยังต้องปรับปรุงให้ดูเป็นธรรมชาติมากขึ้น นักวิจัยเชื่อว่า ยิ่งหุ่นยนต์ได้ฝึกพูดและสังเกตมนุษย์มากขึ้นเท่าไร ความแม่นยำก็จะยิ่งมากขึ้นตามลำดับยูฮัง หู (Yuhang Hu) นักวิจัยผู้พัฒนา EMO ระบุว่า “หากนำความสามารถด้านการลิปซิงค์นี้ไปใช้ร่วมกับ AI สนทนาอย่าง ChatGPT หรือ Gemini จะช่วยเพิ่มมิติทางอารมณ์ในการสื่อสารระหว่างมนุษย์กับหุ่นยนต์มากขึ้น โดยยิ่งหุ่นยนต์ได้เรียนรู้จากบทสนทนาที่มีบริบทยาว ๆ และซับซ้อนมากเท่าไร ก็จะยิ่งสามารถแสดงสีหน้าและท่าทางที่สอดคล้องกับอารมณ์ของการสนทนาได้ดีมากขึ้นเท่านั้น”สำหรับผู้ที่สนใจ งานวิจัยนี้ได้รับการตีพิมพ์ในวารสาร Science Robotics สามารถอ่านฉบับเต็มได้จากลิงก์นี้ : https://www.science.org/doi/10.1126/scirobotics.adx3017แหล่งที่มา : Columbia Universityข่าวที่เกี่ยวข้องเจาะลึกวิสัยทัศน์ เจนเซน หวง (Jensen Huang) บนเวที World Economic Forum 2026 ซีอีโอ “Microsoft” ชี้ ! “AI” ต้องสร้างผลลัพธ์จับต้องได้ แลกกับพลังงานมหาศาล แมทธิว แมคคอนาเฮย์ จดทะเบียนเครื่องหมายการค้าภาพและเสียงของตนเองเพื่อป้องกัน AIกลุ่มสิทธิสตรีผนึกกำลังจี้ "Apple"-"Google" ถอด X และ Grok เซ่นปม AI ทำภาพอนาจารเผยโฉม “หุ่นยนต์ตำรวจจราจร” คุมเข้มถนนในมณฑลอันฮุย ประเทศจีน