Google เปิดตัว Gemini 3.1 Flash TTS พร้อมการแสดงอารมณ์ที่ดีขึ้นและความสามารถหลายผู้พูด

ข้อความจาก Gate News วันที่ 17 เมษายน — Google เปิดตัว Gemini 3.1 Flash TTS ซึ่งเป็นโมเดลแปลงข้อความเป็นเสียงขั้นสูง พร้อมฟีเจอร์การแสดงอารมณ์และการควบคุมที่ได้รับการปรับปรุง เมื่อวันที่ 15 เมษายน โมเดลใหม่นี้จะทยอยเปิดให้ใช้งานผ่าน API สำหรับนักพัฒนา Vertex AI ระดับองค์กร และเครื่องมือสำหรับการทำงานร่วมกัน

ความสามารถหลักของโมเดล ได้แก่ แท็กเสียงที่อิงตามภาษาธรรมชาติสำหรับการปรับแต่งความเร็ว อินโทเนชัน และอารมณ์ รวมถึง “Director Mode” สำหรับการระบุฉากและบทบาทตัวละครเพื่อสร้างผลลัพธ์เสียงที่มีความละเมียดมากขึ้น ฟีเจอร์หลายผู้พูดช่วยให้สร้างบทสนทนาแบบพร้อมกัน ทำให้การไหลของการสนทนามีความเป็นธรรมชาติมากขึ้น เหมาะสำหรับพอดแคสต์ คอนเทนต์เสียง และผู้ช่วย AI โมเดลรองรับมากกว่า 70 ภาษาและภาษาถิ่น สะท้อนสำเนียงและสำนวนตามภูมิภาคเพื่อประสบการณ์เสียงที่ปรับให้เข้ากับท้องถิ่นทั่วโลก

Google เน้นทั้งประสิทธิภาพและความคุ้มค่าด้านต้นทุน โดยทำคะแนนได้สูงในเกณฑ์ประเมินของมนุษย์แบบไม่ระบุว่าเป็นใคร ในขณะเดียวกันก็ลดค่าใช้จ่ายด้านการคำนวณผ่านสถาปัตยกรรมแบบ Flash ซึ่งออกแบบมาเพื่อการนำไปใช้ในองค์กรขนาดใหญ่เชิงระบบ เสียงที่สร้างขึ้นมาพร้อมการฝังลายน้ำ SynthID เพื่อระบุคอนเทนต์ที่สร้างโดย AI และต่อสู้กับข้อมูลที่บิดเบือน

ความเคลื่อนไหวนี้สะท้อนการแข่งขันที่เข้มข้นขึ้นในส่วนต่อประสานเสียง OpenAI กำลังผสานฟีเจอร์เสียงแบบเรียลไทม์เข้ากับ AI เชิงสนทนาเพื่อการมีปฏิสัมพันธ์ที่เหมือนมนุษย์ ขณะที่ Meta กำลังขยายการลงทุนในตัวละคร AI พร้อมประสบการณ์ทางสังคมที่ขับเคลื่อนด้วยเสียง ผู้สังเกตการณ์ในอุตสาหกรรมมองว่าแม้งานแสดงและงานสร้างสรรค์ระดับสูงอาจยังคงขับเคลื่อนโดยมนุษย์ในตอนนี้ แต่ตลาดการผลิตที่ซ้ำๆ และขนาดใหญ่ อาจเห็นการนำ AI ไปใช้แบบค่อยเป็นค่อยไปในด้านพากย์โฆษณา การโฆษณา และหมวดสำนักพิมพ์เสียง (audiobook)

news.article.disclaimer

btc.bar.articles

คาดว่า Naver และ Kakao จะรายงานผลไตรมาส 1 ที่แข็งแกร่ง ขณะที่การลงทุนด้าน AI ยังคงดำเนินต่อ

Naver และ Kakao คาดว่าจะรายงานผลประกอบการไตรมาส 1 ปี 2026 ที่แข็งแกร่ง โดยขับเคลื่อนด้วยธุรกิจพาณิชย์และการโฆษณ แม้จะได้รับผลกระทบจำกัดจากผลิตภัณฑ์ AI ระยะเริ่มต้น ทั้งสองบริษัทมีการลงทุนอย่างมีนัยสำคัญในโครงสร้างพื้นฐานด้าน AI และปรับกลยุทธ์เพื่อบูรณาการ AI เข้ากับบริการที่มีอยู่

GateNews31 นาที ที่แล้ว

Anthropic Releases Claude Opus 4.7 With Weakened Cyber Capabilities

Anthropic released an upgraded version of its flagship model, Claude Opus 4.7, on April 16 (local time). Compared to the previous Opus 4.6 model, Opus 4.7 demonstrates "significant improvements" in advanced software engineering capabilities, particularly on difficult tasks, with enhanced rigor and c

CryptoFrontier38 นาที ที่แล้ว

xAI จะมอบพลังการประมวลผล GPU ขนาดใหญ่ให้กับ Cursor เพื่อฝึกโมเดลโค้ดสำหรับ AI

xAI ของ Elon Musk จะให้พลังการประมวลผลแก่สตาร์ทอัพด้านการเขียนโปรแกรม Cursor โดยใช้ GPU นับพันตัวเพื่อฝึกโมเดลโค้ดตัวใหม่ของบริษัท การเปลี่ยนแปลงนี้ช่วยเสริมบทบาทของ xAI ในบริการด้านการประมวลผล ซึ่งอาจเพิ่มรายได้และช่วยรับมือกับต้นทุนการดำเนินงานท่ามกลางการขาดทุนที่ยังคงดำเนินอยู่

GateNews38 นาที ที่แล้ว

Anthropic จับมือกับ TrendAI เพื่อผสานรวมโมเดล Claude เข้ากับแพลตฟอร์มความปลอดภัยด้วย AI ระดับองค์กร

TrendAI ได้ร่วมมือกับ Anthropic เพื่อผสานรวมโมเดล Claude เข้ากับแพลตฟอร์มของตน เพิ่มประสิทธิภาพการวิจัยภัยคุกคามและการปฏิบัติการด้านความปลอดภัยด้วย AI ความร่วมมือนี้มีเป้าหมายเพื่อระบุช่องโหว่ก่อนการนำไปใช้งานจริง สะท้อนถึงการเปลี่ยนแปลงของอุตสาหกรรมไปสู่ความปลอดภัยด้วย AI.

GateNews1 ชั่วโมง ที่แล้ว

OpenAI ตกลงจ่ายมากกว่า $20 Billion สำหรับชิปของ Cerebras เป็นเวลาสามปี พร้อมรับสิทธิ์ถือหุ้น

OpenAI ตกลงจะซื้อชิป AI มูลค่ามากกว่า $20 พันล้านจาก Cerebras เป็นเวลาสามปี โดยได้สิทธิ์ถือหุ้นในบริษัท เพื่อมุ่งลดต้นทุนการประมวลผลขณะที่ขยายบริการด้าน AI

GateNews1 ชั่วโมง ที่แล้ว

รัฐมนตรี AI สหราชอาณาจักรถูกวิจารณ์ OpenAI ที่หยุดโครงการศูนย์ข้อมูล Stargate

รัฐมนตรีว่าการกระทรวง AI ของสหราชอาณาจักรถูกวิจารณ์การตัดสินใจของ OpenAI ที่จะชะลอโครงการศูนย์ข้อมูลของสหราชอาณาจักร โดยเชื่อมโยงกับปัญหาการระดมทุนมากกว่าราคาพลังงาน ขณะที่ Microsoft เตรียมเช่าความจุที่ไซต์อื่น ซึ่งส่งผลต่อเป้าหมายการลงทุนด้าน AI ของสหราชอาณาจักร

GateNews1 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น