Alibaba เปิดตัวโมเดลโอเพ่นซอร์สสำหรับการสร้าง Digital Human Video

ข่าวประชาสัมพันธ์ »

Wan2.2-S2V สร้างสรรค์ภาพถ่ายให้มีชีวิต ด้วยโมเดลแปลงเสียงพูดเป็นวิดีโอ (Speech-to-Video model)

Alibaba เปิดตัวโมเดลโอเพ่นซอร์สสำหรับการสร้าง Digital Human Video

อาลีบาบา เปิดตัว Wan2.2-S2V (Speech-to-Video) โมเดลโอเพ่นซอร์สล่าสุดที่ออกแบบมาสำหรับการสร้างวิดีโอมนุษย์ดิจิทัล (digital human video) ที่สามารถแปลงภาพถ่ายบุคคลให้กลายเป็นอวทาร์คุณภาพระดับภาพยนตร์ที่พูด ร้องเพลง และแสดงท่าทางได้

โมเดลนี้เป็นส่วนหนึ่งของ Wan2.2 ซึ่งเป็นชุดโมเดลการสร้างวิดีโอของอาลีบาบา โมเดลนี้สามารถสร้างวิดีโอแอนิเมชันคุณภาพสูงจากภาพภาพเดียวและคลิปเสียงหนึ่งคลิป

Wan2.2-S2V มอบความสามารถด้านการสร้างแอนิเมชันตัวละครที่หลากหลาย รองรับการสร้างวิดีโอได้หลายมุมมอง ทั้งแบบพอร์ตเทรต ครึ่งตัว และเต็มตัว อีกทั้งยังสามารถสร้างการเคลื่อนไหวของตัวละครและองค์ประกอบแวดล้อมแบบไดนามิกตามคำสั่งที่กำหนด ช่วยให้ครีเอเตอร์สามารถถ่ายทอดภาพได้อย่างแม่นยำ ตรงตามเรื่องราวและการออกแบบ

โมเดลนี้สามารถสร้างตัวละครที่แสดงได้เสมือนจริง ตั้งแต่บทสนทนาที่เป็นธรรมชาติ ไปจนถึงการแสดงดนตรี โดยอาศัยเทคโนโลยีแอนิเมชันที่ขับเคลื่อนด้วยเสียงที่มีประสิทธิภาพสูง และยังจัดการกับตัวละครหลายตัวภายในฉากได้อย่างราบรื่น ครีเอเตอร์สามารถแปลงเสียงบันทึกให้เป็นภาพเคลื่อนไหวที่สมจริง รองรับอวทาร์ที่หลากหลาย ตั้งแต่การ์ตูนและสัตว์ ไปจนถึงตัวละครที่มีสไตล์เฉพาะตัว

เทคโนโลยีนี้มอบความละเอียดของการแสดงผลที่ยืดหยุ่น ทั้ง 480P และ 720P เพื่อตอบโจทย์ความต้องการที่หลากหลายของคอนเทนต์ครีเอเตอร์มืออาชีพให้มั่นใจได้ว่าจะได้ภาพคุณภาพสูงที่ตรงตามมาตรฐานทางวิชาชีพและงานสร้างสรรค์ที่หลากหลาย จึงเหมาะอย่างยิ่งสำหรับคอนเทนต์บนสื่อโซเชียลและงานนำเสนอระดับมืออาชีพ

นวัตกรรมทางเทคโนโลยีที่หลากหลาย

Wan2.2-S2V มีประสิทธิภาพเหนือแอนิเมชันแบบ talking-head ด้วยการผสมผสานการควบคุมการเคลื่อนไหวหลักในภาพรวมด้วยคำสั่งจากข้อความ และการเคลื่อนไหวเฉพาะจุดที่มีรายละเอียดสูงด้วยข้อมูลจากเสียงเข้าด้วยกัน ทำให้ตัวละครเคลื่อนไหวได้อย่างเป็นธรรมชาติและสื่ออารมณ์ได้อย่างลึกซึ้ง แม้ในสถานการณ์ที่ซับซ้อนและท้าทาย

เทคนิคการประมวลผลเฟรมที่เป็นนวัตกรรมของโมเดลนี้ เป็นอีกหนึ่งความล้ำหน้าสำคัญ เทคโนโลยีนี้ช่วยลดค่าใช้จ่ายในการประมวลผลได้อย่างมีนัยสำคัญ จากการบีบอัดเฟรมที่มีอยู่เดิมซึ่งมีความยาวแบบไม่จำกัดให้เป็นภาพแฝง (latent representation) ที่มีขนาดกะทัดรัดเพียงภาพเดียว ซึ่งช่วยให้สามารถสร้างวิดีโอยาว ๆ ที่มีความเสถียรได้อย่างน่าทึ่ง เป็นการจัดการกับความท้าทายสำคัญในการผลิตคอนเทนต์แอนิเมชันที่ขยายเพิ่มเติม

ความสามารถที่ก้าวล้ำของโมเดลได้รับการยกระดับให้โดดเด่นยิ่งขึ้นด้วยกระบวนการเทรนที่ครอบคลุม ทีมวิจัยของอาลีบาบาได้สร้างชุดข้อมูลภาพและเสียงขนาดใหญ่ที่ออกแบบมาเพื่อรองรับการผลิตภาพยนตร์และรายการโทรทัศน์โดยเฉพาะ Wan2.2-S2V ได้รับการเทรนด้วยความละเอียดหลายระดับ (multi-resolution) จึงสามารถรองรับการสร้างวิดีโอได้หลายรูปแบบอย่างยืดหยุ่น ไม่ว่าจะเป็นคอนเทนต์วิดีโอสั้นที่ถ่ายทำแบบแนวตั้ง ไปจนถึงงานผลิตภาพยนต์และรายการโทรทัศน์แบบเดิมที่ถ่ายทำเป็นแนวนอน

Wan2.2-S2V พร้อมให้ดาวน์โหลดแล้วบน Hugging Face, GitHub และบน ModelScope ซึ่งเป็นคอมมิวนิตี้ด้านโอเพ่นซอร์สของอาลีบาบา คลาวด์ นอกจากนี้ในฐานะผู้มีส่วนร่วมสำคัญต่อชุมชนโอเพ่นซอร์สระดับโลก อาลีบาบาได้เปิดโอเพ่นซอร์สโมเดล Wan2.1 เมื่อเดือนกุมภาพันธ์ พ.ศ. 2568 และโมเดล Wan2.2 เมื่อเดือนกรกฎาคมที่ผ่านมา ปัจจุบันโมเดลที่อยู่ใน Wan series มียอดดาวน์โหลดรวมกว่า 6.9 ล้านครั้งบน Hugging Face และ ModelScope


ข่าวอาลีบาบา+การสร้างวันนี้

อาลีบาบาเผยโฉม Wan2.6 Series ให้ทุกคนสวมบทเป็นตัวเอกในวิดีโอได้ดั่งใจ

โมเดลสำหรับการสร้างภาพตัวใหม่ ที่ช่วยยกระดับการผลิตวิดีโอ คุณภาพระดับภาพยนตร์ และระดับมืออาชีพ สู่มือครีเอเตอร์ทั่วโลก กรุงเทพฯ วันที่ 17 ธันวาคม 2568 อาลีบาบาเปิดตัว Wan2.6 series วิวัฒนาการล่าสุดของโมเดลการสร้างสรรค์ภาพ (visual generation models) ที่ช่วยให้ครีเอเตอร์สามารถปรากฏตัวในวิดีโอที่สร้างโดย AI ในรูปลักษณ์และเสียงของตนเอง พร้อมความสามารถในการเล่าเรื่องผ่านมุมกล้องแบบ flexible multi-shot ซึ่งเป็นฟีเจอร์ใหม่ที่ได้รับการออกแบบมาเพื่อปลดล็อกการสร้างสรรค์คอนเทนต์ระดับมืออาชีพ

กุมภาพันธ์ 2026 เป็นเดือนที่ทั่วโลกจะจับต... ปฏิวัติคลาวด์: เมื่อ Alibaba พลิกโฉมโอลิมปิกสู่ยุค AI — กุมภาพันธ์ 2026 เป็นเดือนที่ทั่วโลกจะจับตามองไปที่เมืองมิลาน-กอร์ตีนาดัมเปซโซ เมื่อมหกรรมกีฬาโอลิม...

บทความโดยอาลีบาบา คลาวด์ ภาคอุตสาหกรรมเห็... จาก Chatbot สู่ Agent ปลดล็อกประสิทธิภาพการใช้ AI องค์กร เต็มรูปแบบ — บทความโดยอาลีบาบา คลาวด์ ภาคอุตสาหกรรมเห็นพ้องต้องกันอย่างชัดเจนว่าปี 2025 เป็นการเร...

รายงานด้านการจัดการคอนเทนเนอร์ และ รายงาน... Alibaba Cloud ได้รับการจัดให้เป็นผู้นำในรายงาน Gartner(R) Magic Quadrant(TM) ประจำปี 2025 ควบสองรายงาน — รายงานด้านการจัดการคอนเทนเนอร์ และ รายงานด้านแพลต...

เพื่อพลิกโฉมการสร้างการมีส่วนร่วมกับแฟน ๆ... NBA China และ Alibaba Cloud ประกาศความร่วมมือระยะเวลาหลายปี — เพื่อพลิกโฉมการสร้างการมีส่วนร่วมกับแฟน ๆ กีฬา จะมีการใช้ AI Model ที่ NBA เป็นเจ้าของ ซึ่งพ...

เปิดตัวบริการครบวงจรตั้งแต่โมเดล AI ไปจนถ... อาลีบาบา คลาวด์ เผยแผนกลยุทธ์นวัตกรรม AI ยุคหน้า — เปิดตัวบริการครบวงจรตั้งแต่โมเดล AI ไปจนถึงแพลตฟอร์มการพัฒนาเอเจนต์และแอปพลิเคชัน พร้อมอัปเกรดโครงส...