แปลเสียงพูดให้ไหลลื่นและเป็นธรรมชาติด้วย Gemini 3.5 Live Translate

เมื่อ 20 ปีที่แล้ว การแปลภาษาของ Google เริ่มต้นจากการเป็นหนึ่งในการทดลองแมชชีนเลิร์นนิงในยุคบุกเบิก เพื่อเปลี่ยนศาสตร์แห่งภาษาให้กลายเป็นความมหัศจรรย์ในการเชื่อมโยงมนุษย์เข้าด้วยกัน จากการทดลองในวันนั้น ได้พัฒนาบริการแปลภาษามาอย่างต่อเนื่อง โดยตอนนี้มีการแปลคำศัพท์ต่างๆ กว่าล้านล้านคำให้กับผู้ใช้นับพันล้านคนผ่านผลิตภัณฑ์ต่างๆ ในแต่ละเดือน วันนี้กำลังก้าวไปอีกขั้นด้วยการเปิดตัว Gemini 3.5 Live Translate โมเดลเสียงล่าสุดสำหรับการแปลเสียงพูดเป็นคำพูดแบบสดๆเมื่อ 20 ปีที่แล้ว การแปลภาษาของ Google เริ่มต้นจากการเป็นหนึ่งในการทดลองแมชชีนเลิร์นนิงในยุคบุกเบิก เพื่อเปลี่ยนศาสตร์แห่งภาษาให้กลายเป็นความมหัศจรรย์ในการเชื่อมโยงมนุษย์เข้าด้วยกัน จากการทดลองในวันนั้น ได้พัฒนาบริการแปลภาษามาอย่างต่อเนื่อง โดยตอนนี้มีการแปลคำศัพท์ต่างๆ กว่าล้านล้านคำให้กับผู้ใช้นับพันล้านคนผ่านผลิตภัณฑ์ต่างๆ ในแต่ละเดือนวันนี้กำลังก้าวไปอีกขั้นด้วยการเปิดตัว Gemini 3.5 Live Translate โมเดลเสียงล่าสุดสำหรับการแปลเสียงพูดเป็นคำพูดแบบสดๆโมเดลนี้สามารถตรวจจับภาษาได้โดยอัตโนมัติมากกว่า 70 ภาษา และสร้างเสียงแปลที่เป็นธรรมชาติ โดยยังคงรักษาโทนเสียง จังหวะการพูด และระดับเสียงสูงต่ำของผู้พูดเอาไว้ Gemini 3.5 Live Translate จะสร้างเสียงแปลอย่างต่อเนื่อง โดยรักษาสมดุลระหว่างการรอฟังบริบทเพื่อคุณภาพการแปลที่ดีที่สุด กับการแปลทันทีเพื่อให้ทันผู้พูด ซึ่งต่างจากระบบแปลแบบสลับกันพูดที่ต้องรอให้ผู้พูดพูดจบก่อนถึงจะแปลให้ การแปลด้วย Gemini 3.5 Live Translate จะให้เสียงที่ไหลลื่น ไม่มีจังหวะหยุดที่น่าอึดอัด และจะดีเลย์ตามหลังผู้พูดเพียงไม่กี่วินาทีตลอดการสนทนาGemini 3.5 Live Translate เริ่มทยอยเปิดใช้งานตั้งแต่วันนี้ในผลิตภัณฑ์ต่างๆ ของ Googleสำหรับนักพัฒนาซอฟต์แวร์: เปิดให้ใช้งานในเวอร์ชัน Public Preview ผ่าน Gemini Live API และ Google AI Studioสำหรับองค์กรธุรกิจ: เปิดให้ใช้งานในเวอร์ชัน Private Preview เริ่มตั้งแต่เดือนนี้ใน Google Meetสำหรับผู้ใช้ทั่วไป: เปิดให้ใช้งานผ่าน Google Translate ทั้งบน Android และ iOSพัฒนาสิ่งใหม่ๆ ด้วย Gemini 3.5 Live TranslateGemini 3.5 Live Translate จะประมวลผลเสียงพูดในขณะที่มีการสตรีมเพื่อช่วยให้การเชื่อมต่อระหว่างภาษาต่างๆ มีความราบรื่นยิ่งขึ้น โมเดลนี้สามารถจัดการกับอินพุตหลายภาษา (multilingual) ได้โดยไม่ต้องตั้งค่าด้วยตนเอง ในขณะที่ความสามารถในการตัดเสียงรบกวนช่วยให้มั่นใจได้ว่าแอปพลิเคชันจะทำงานได้ดีแม้ในสภาพแวดล้อมที่มีเสียงดังและคาดเดาไม่ได้ คุณสามารถใช้ความสามารถเหล่านี้ของ Gemini 3.5 Live Translate เพื่อช่วยอำนวยความสะดวกในการแปลสดสำหรับการโทร การประชุม การเรียนการสอน การถ่ายทอดสด และอื่นๆ ที่ใช้หลายภาษาได้รับชมการทำงานของ Gemini Live API ที่ช่วยให้สามารถพากย์เสียงและแปลภาษาพร้อมกันได้หลายภาษาในเวลาเดียวกัน ร่วมเจาะลึกไปกับวิดีโอสาธิตหรือดูตัวอย่างโค้ดเพิ่มเติมได้ใน Gemini Cookbookแพลตฟอร์มสำหรับนักพัฒนาซอฟต์แวร์อย่าง Agora, Fishjam, Livekit, Pipecat และ VisionAgents ช่วยให้นักพัฒนาซอฟต์แวร์สามารถสร้างและให้บริการแอปพลิเคชันสำหรับการแปลเสียงพูดได้อย่างง่ายดายผ่านทาง Gemini Live API โดยการผสานการทำงานเหล่านี้จะช่วยจัดการกับโครงสร้างพื้นฐานในการสตรีมสื่อแบบเรียลไทม์ที่มีความซับซ้อน เพื่อให้นักพัฒนาซอฟต์แวร์สามารถมุ่งเน้นไปที่ประสบการณ์ของผู้ใช้ได้อย่างเต็มที่พาร์ทเนอร์ของเราอย่าง Grab กำลังทดสอบโมเดลนี้เพื่อช่วยให้คนขับและผู้โดยสารสามารถสื่อสารกันในภาษาต่างๆ ได้แบบเกือบเรียลไทม์ ซึ่งคนขับและผู้โดยสารมีการโทรติดต่อกันด้วยเสียงผ่าน Grab มากกว่า 10 ล้านครั้งในแต่ละเดือนฟีดแบ็กจากพาร์ทเนอร์นอกจาก Grab แล้ว บริษัทต่างๆ เช่น CJ ENM, LiveKit และรายอื่นๆ ก็ได้แชร์ฟีดแบ็กเชิงบวกเกี่ยวกับ Gemini 3.5 Live Translate ด้วย โดยเน้นย้ำถึงคุณภาพการแปลที่น่าประทับใจ ความแม่นยำ และเวลาในการตอบสนองต่ำ (low latency)GrabCJ ENMLiveKit“ในระหว่างการทดสอบ Gemini 3.5 Live Translate เราประทับใจในความสามารถของโมเดลนี้ที่สามารถตรวจจับหลายภาษาได้โดยอัตโนมัติ และแปลเสียงพูดได้อย่างแม่นยำ โดยใช้เวลาในการตอบสนองที่ต่ำ”– Philipp Kandal ประธานเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Grab“CJ ENM รู้สึกตื่นเต้นที่ได้ร่วมมือกับ Google DeepMind ในโปรเจกต์ Gemini 3.5 Live Translate การทดสอบในช่วงแรกแสดงให้เห็นถึงคุณภาพที่น่าพึงพอใจ ซึ่งจะมอบประสบการณ์ที่สมจริงยิ่งขึ้นสำหรับผู้ชมทั่วโลกและผู้ชมชาวเกาหลี”– Bella Baek ประธานเจ้าหน้าที่ฝ่าย AI ของ CJ ENM“Gemini 3.5 Live Translate ทำให้การสื่อสารด้วยเสียงหลายภาษาเป็นเรื่องง่าย ผมได้สร้างตัวเดโมบน LiveKit Agents ที่ทุกคนสามารถพูดภาษาของตัวเองและเข้าใจกันได้แบบเรียลไทม์”– Jesse Hall, Staff Developer Advocate ของ LiveKitVisionAgentsSoftware MansionAgora“เราได้ทำการทดสอบ Gemini 3.5 Live Translate ในหลากหลายภาษา และทีมงานของเราต่างทึ่งในเรื่องของความเร็ว ความแม่นยำ และความมีชีวิตชีวาของโมเดลนี้”– Nash Ramdial ผู้อำนวยการของ VisionAgents“Gemini 3.5 Live Translate เมื่อจับคู่กับโปรโตคอล MoQ ของ Fishjam ได้สร้างขีดจำกัดใหม่ให้กับการสตรีมมัลติมีเดียแบบเรียลไทม์ ทำให้สามารถแปลเสียงพูดเป็นคำพูดได้มากกว่า 70 ภาษา”– Maciej Rys รองประธานฝ่ายวิศวกรรม ของ Software Mansion“เราได้ทดสอบโมเดล Gemini 3.5 Live Translate ที่ Agora และได้เห็นผลลัพธ์ที่แสดงถึงประสิทธิภาพในระดับแนวหน้า (SOTA) ด้วยเวลาในการตอบสนองที่ต่ำและความแม่นยำสูง ซึ่งสร้างมาตรฐานใหม่ให้กับการแปลภาษาแบบเรียลไทม์”– Mason Adams, Developer Evangelist ของ Agoraสัมผัสประสบการณ์การใช้งาน Gemini 3.5 Live Translate ได้ในการประชุมทางวิดีโอของคุณฟีเจอร์การแปลเสียงพูด (Speech Translation) ใน Google Meet กำลังจะเปลี่ยนมาใช้ Gemini 3.5 Live Translate ในเร็วๆ นี้ ซึ่งจะช่วยยกระดับประสบการณ์การใช้งานโดย:รองรับมากกว่า 70 ภาษา จากเดิมที่รองรับได้เพียง 5 ภาษาช่วยให้สามารถสนทนาข้ามคู่ภาษาได้มากกว่า 2,000 คู่ภาษาภายในการประชุมเดียว ซึ่งขยายขีดความสามารถจากเดิมที่แปลได้เฉพาะในกรณีที่ภาษาอังกฤษเป็นภาษาต้นทางหรือปลายทางเท่านั้นมีการอัปเดตอินเทอร์เฟซใหม่เพื่อให้เข้าถึงฟีเจอร์แปลเสียงพูดได้ทันทีเราจะเปิดตัวการอัปเดตนี้ในเวอร์ชัน Private Preview สำหรับลูกค้า Google Workspace Business บางกลุ่ม โดยจะเริ่มให้บริการตั้งแต่เดือนนี้ และจะขยายการใช้งานในวงกว้างขึ้นในช่วงปลายปีนี้ใช้งาน Gemini 3.5 Live Translate ได้ในแอป Google Translate ทั้งบน Android และ iOSโมเดลนี้จะเริ่มทยอยเปิดให้ใช้งานในแอป Google Translate ทั่วโลก ทั้งบนระบบปฏิบัติการ Android และ iOS เมื่อใช้ฟีเจอร์แปลสด (Live Translate) เพียงแค่เชื่อมต่อหูฟังคู่ใดก็ได้ คุณก็จะได้สัมผัสกับประสบการณ์การแปลที่ราบรื่นยิ่งขึ้นและเป็นโทนเสียงของผู้พูดได้ในกว่า 70 ภาษานอกจากนี้ เรายังจะทยอยเปิดให้บริการ “โหมดการฟัง” (Listening Mode) แบบใหม่ที่มาพร้อม Gemini 3.5 Live Translate สำหรับผู้ใช้ Android ด้วย โดยโหมดนี้จะช่วยให้คุณได้ยินเสียงแปลโดยตรงผ่านหูฟังในโทรศัพท์ เพียงแค่ยกโทรศัพท์ขึ้นมาแนบหูเหมือนการคุยสายปกติ เสียงแปลก็จะสตรีมส่งตรงถึงคุณทันที ประสบการณ์ใหม่นี้จะมีประโยชน์มากในสถานการณ์ที่คุณต้องการฟังคำแปลอย่างรวดเร็วโดยไม่ให้คนอื่นได้ยิน และไม่มีหูฟังอยู่ใกล้ตัวใส่ลายน้ำด้วย SynthIDเสียงทั้งหมดที่สร้างขึ้นโดยโมเดลของเราจะถูกใส่ลายน้ำดิจิทัลด้วย SynthID โดยลายน้ำที่ไม่สามารถมองเห็นได้ด้วยตาเปล่านี้จะถูกผสานรวมเข้ากับเอาต์พุตเสียงโดยตรง เพื่อให้มั่นใจว่าเนื้อหาที่สร้างโดย AI จะยังคงสามารถตรวจจับได้ ซึ่งจะช่วยป้องกันการให้ข้อมูลที่ไม่ถูกต้อง (Misinofrmation) สามารถตรวจสอบรายละเอียดเกี่ยวกับแนวทางด้านความปลอดภัยและความรับผิดชอบของเราได้ที่ Model Card ของเราข่าวที่เกี่ยวข้องGoogle ทุ่ม 3 หมื่นล้านบาทต่อเดือน เช่า AI SpaceX ก่อน IPOถอดรหัส “Google” กับสมรภูมิ “Search engine” เมื่อ AI ปฏิวัติการค้นหาของมนุษย์เปรียบเทียบ 3 ขุนพลแห่งสมรภูมิ AI Agent ตัวไหนตอบโจทย์คุณที่สุด?Google เปิดตัว “Platform 37” ศูนย์กลาง AI แห่งใหม่ในลอนดอน พร้อมพื้นที่สาธารณะเรียนรู้ AI ฟรีเปิดตัว "Google Pics" แอปแต่งภาพพลัง AI รุ่นล่าสุด ท้าชนคู่แข่งด้วยฟีเจอร์แก้ไขข้อความและวัตถุสุดอัจฉริยะ


Posted

in

by

Tags: