อาลีบาบา ปล่อย Wan2.2 ยกระดับการผลิตวิดีโอคุณภาพระดับภาพยนตร์

ข่าวประชาสัมพันธ์ »

โมเดลสร้างวิดีโอแบบโอเพ่นซอร์สรุ่นแรกในอุตสาหกรรมที่ใช้สถาปัตยกรรม MoE ช่วยให้ครีเอเตอร์และนักพัฒนาทั่วโลกควบคุมการผลิตวิดีโอได้อย่างยอดเยี่ยม

อาลีบาบา ปล่อย Wan2.2 ยกระดับการผลิตวิดีโอคุณภาพระดับภาพยนตร์

อาลีบาบา เปิดตัว Wan2.2 โมเดลสร้างวิดีโอขนาดใหญ่แบบโอเพ่นซอร์สที่สร้างบนสถาปัตยกรรม MoE (Mixture-of-Experts) เป็นโมเดลแรกในอุตสาหกรรม เพื่อช่วยยกระดับความสามารถในการผลิตวิดีโอสไตล์ภาพยนตร์ให้กับครีเอเตอร์และนักพัฒนา ด้วยการคลิกเพียงครั้งเดียว

Wan2.2 series เป็นไฮบริดโมเดลที่รองรับการสร้างวิดีโอจากข้อความและจากภาพภายใต้เฟรมเวิร์กเดียวกัน ประกอบด้วยโมเดลแปลงข้อความเป็นวิดีโอ Wan2.2-T2V-A14B และโมเดลแปลงภาพเป็นวิดีโอ Wan2.2-12V-A14B และ Wan2.2-TI2V-5B

Wan2.2-T2V-A14B และ Wan2.2-I2V-A14B สร้างขึ้นบนสถาปัตยกรรม MoE ได้รับการเทรนด้วยชุดข้อมูลภาพที่คัดสรรมาอย่างพิถีพิถัน ทำให้สามารถสร้างวิดีโอที่มีคุณภาพและสวยงามในเกรดภาพยนต์ ครีเอเตอร์สามารถควบคุมมิติสำคัญ ๆ ได้อย่างแม่นยำ เช่น แสง เวลาที่ต้องการ โทนสี มุมกล้อง ขนาดของเฟรม องค์ประกอบ และ ระยะโพกัส เป็นต้น

โมเดล MoE ทั้งสองนี้ ยังแสดงให้เห็นถึงประสิทธิภาพในการสร้างการเคลื่อนไหวที่ซับซ้อนได้อย่างโดดเด่น ไม่ว่าจะเป็นการแสดงออกทางสีหน้าที่สดใส ท่าทางมือที่เคลื่อนไหวแบบไดนามิก ไปจนถึงการเคลื่อนไหวที่ซับซ้อนของการเล่นกีฬา นอกจากนี้ยังช่วยให้การนำเสนอสมจริง ด้วยความสามารถในการทำตามคำสั่งและยึดหลักปฏิบัติตามกฎทางกายภาพได้ดีมากขึ้น

Wan2.2-T2V-A14B และ Wan2.2-I2V-A14B ใช้การออกแบบ แบบ two-expert ในกระบวนการลดเสียงรบกวนของโมเดลการแพร่กระจาย (diffusion model) ต่าง ๆ เพื่อแก้ปัญหาในการสร้างวิดีโอที่ต้องใช้ทรัพยากรประมวลผลสูงที่เกิดจากการใช้โทเค็นที่ใช้ได้ตลอดระยะเวลาของการสตรีมสื่อ (long tokens) ซึ่งรวมถึง high-noise expert ที่เน้นไปที่เค้าโครงของฉากในภาพรวม และ low-noise expert เพื่อปรับแต่งรายละเอียดและพื้นผิว ทั้งนี้แม้ว่าทั้งสองโมเดลจะมีพารามิเตอร์รวม 27 พันล้านพารามิเตอร์ แต่ในแต่ละขั้นตอนจะเปิดใช้งานเพียง 14 พันล้านพารามิเตอร์เท่านั้น ทำให้สามารถลดการใช้ทรัพยากรการประมวลผลลงได้มากถึง 50%

Wan2.2 รองรับการปรับแต่งอย่างละเอียดผ่านระบบพรอมต์ที่ได้รับแรงบันดาลใจจากงานภาพยนตร์ โดยจัดหมวดหมู่มิติสำคัญต่าง ๆ เช่น แสง ความสว่าง องค์ประกอบภาพ และ โทนสี ช่วยให้ Wan2.2 สามารถตีความและถ่ายทอดเจตนารมณ์ของผู้ใช้งานได้อย่างแม่นยำตลอดกระบวนการสร้างวิดีโอ

Wan2.2 ได้รับการเทรนจากชุดข้อมูลที่มีขนาดใหญ่ขึ้นมาก เพื่อเพิ่มความสามารถให้ใช้ได้ในวงกว้างมากขึ้น และเพิ่มความหลากหลายของการสร้างสรรค์ โดยมีข้อมูลภาพเพิ่มขึ้น 65.6% และข้อมูลวิดีโอเพิ่มขึ้น 83.2% เมื่อเทียบกับ Wan2.1 ทำให้ Wan2.2 มีประสิทธิภาพในการสร้างฉากและการเคลื่อนไหวที่ซับซ้อน รวมถึงความสามารถในการแสดงออกทางศิลปะเพิ่มมากขึ้น

โมเดลขนาดกะทัดรัด เพื่อเพิ่มประสิทธิภาพและความสามารถในการปรับขนาด

Wan2.2 มาพร้อม Wan2.2-TI2V-5B ซึ่งเป็นไฮบริดโมเดลของ Wan2.2 และเป็น dense model ที่ใช้สถาปัตยกรรม 3D VAE ที่มีอัตราการบีบอัดข้อมูลสูง เพื่อให้ได้ใช้อัตราส่วนการบีบอัดเชิงเวลาและเชิงพื้นที่ที่ 4x16x16 ซึ่งช่วยเพิ่มอัตราการบีบอัดข้อมูลโดยรวมที่ 64 ทั้งนี้ TI2V-5B สามารถสร้างวิดีโอยาว 5 วินาที และมีความละเอียด 720P ได้ในเวลาไม่กี่นาทีบน GPU ที่เป็นเกรดผู้บริโภคเพียงตัวเดียว เป็นการช่วยให้นักพัฒนาและคอนเทนต์ครีเอเตอร์สร้างสรรค์วิดีโอได้อย่างมีประสิทธิภาพและสามารถปรับขนาดได้ตามต้องการ

โมเดล Wan2.2 พร้อมให้ดาวน์โหลดแล้วบน Hugging Face และ GitHub รวมถึงบน ModelScope ซึ่งเป็นชุมชนด้านโอเพ่นซอร์สของอาลีบาบา คลาวด์ นอกจากนี้ อาลีบาบา ในฐานะหนึ่งในผู้มีส่วนร่วมหลักของชุมชนโอเพ่นซอร์สระดับโลก ได้เปิดโอเพ่นซอร์สโมเดล Wan2.1 สี่โมเดล เมื่อเดือนกุมภาพันธ์ 2568 และโอเพ่นซอร์ส Wan 2.1-VACE (โมเดลสร้างและตัดต่อวิดีโอแบบ all-in-one) เมื่อเดือนพฤษภาคม 2568 ปัจจุบัน โมเดลเหล่านี้มียอดดาวน์โหลดมากกว่า 5.4 ล้านครั้งบน Hugging Face และ ModelScope


ข่าวสถาปัตยกรรม+อุตสาหกรรมวันนี้

ซิสโก้สร้างมาตรฐานใหม่ของอุตสาหกรรมด้วยระบบ Routing ขนาด 51.2T ที่มีประสิทธิภาพ และความสามารถในการปรับขนาดสูงสุดสำหรับ Distributed AI Workloads

ด้วยการเปิดตัวชิป 'Silicon One P200' รุ่นใหม่ ระบบ Routing 8223 ล้ำสมัยของซิสโก้ได้กำหนดนิยามใหม่ให้กับเครือข่าย AI ที่ปลอดภัยและมีประสิทธิภาพ ช่วยให้สถาปัตยกรรมแบบ 'scale-across' เชื่อมต่อ AI Clusters ข้ามหลายศูนย์ข้อมูลได้อย่างราบรื่น สรุปสาระสำคัญ - ระบบเครือข่าย AI รุ่นใหม่ของซิสโก้กำหนดนิยามใหม่ด้วยความสามารถในการปรับขนาด ประสิทธิภาพการใช้พลังงาน และความสามารถในการปรับแต่งที่ไม่เคยมีมาก่อน ซึ่งถูกออกแบบมาโดยเฉพาะเพื่อรับมือกับความท้าทายสำคัญในการเชื่อมต่อหลายศูนย์ข้อมูลเพื่อรัน AI Workloads

โครงการ Creative Cultural District (CCD) ... โครงการ Creative Cultural District (CCD) — โครงการ Creative Cultural District (CCD) ได้รับการสนับสนุนและดำเนินงานโดย สำนักงานส่งเสริมเศรษฐกิจสร้างสรรค์ ...

ในยุคที่ชีวิตเต็มไปด้วยความเร่งรีบ บ้านจึ... A Place of Mind นิยามใหม่ของ Oasis of Livingถ้ำแห่งความสงบ เพื่อการใช้ชีวิตที่ลงตัว — ในยุคที่ชีวิตเต็มไปด้วยความเร่งรีบ บ้านจึงไม่ใช่แค่เพียงที่อยู่อาศัย...

DEK69 โอกาสของว่าที่สถาปนิกมาถึงแล้ว! วิท... Portfolio สถาปัตย์ สวนสุนันทา ปีการศึกษา 2569 — DEK69 โอกาสของว่าที่สถาปนิกมาถึงแล้ว! วิทยาลัยสถาปัตยกรรมศาสตร์ เปิดรับนักศึกษาใหม่ ภาคปกติ ปีการศึกษา...