
ภาพที่สร้างจาก AI โดยใช้ Prompt ว่า Character2 interviews character1 on the street, asking
which Indian street food tastes the best.
อาลีบาบาเปิดตัว Wan2.6 Series โมเดลสำหรับการสร้างภาพ (visual generation models) เวอร์ชันล่าสุด พร้อมความสามารถในการเล่าเรื่องผ่านมุมกล้องแบบ flexible multi-shot และเข้าใจทั้งภาษาจีน – อังกฤษ รวมถึงสามารถรองรับการสนทนาแบบหลายบุคคล (multi-person dialogue) ได้ด้วย
สำหรับ Wan2.6 series เป็นการอัปเกรดครั้งใหญ่ให้กับโมเดลเดิมทั้ง 4 โมเดล ได้แก่ โมเดลด้านแปลงข้อความเป็นวิดีโอ (Wan2.6-T2V), โมเดลแปลงภาพเป็นวิดีโอ (Wan2.6-I2V) และโมเดลการสร้างสรรค์ภาพอีกสองโมเดล อย่าง Wan2.6-image และ Wan2.6-T2I)
รวมถึงโมเดลสำคัญอย่าง Wan2.6-R2V ที่ผู้ใช้สามารถอัปโหลดวิดีโอที่เป็นตัวอ้างอิง reference video ขึ้นไปบน Wan2.6-R2V จากนั้นใช้คำสั่งข้อความ (text prompts) เพื่อสร้างฉากใหม่โดยใช้ตัวละครเดิมเป็นตัวแสดง
ทั้งนี้ คลิปใหม่ที่สร้างขึ้นจะดึงเอกลักษณ์ทั้งหน้าตาและน้ำเสียงจากต้นฉบับมานำเสนออย่างครบถ้วน (ใส่ตัวละครอื่นเพิ่มได้ด้วย) ซึ่งอาลีบาบาระบุว่า ความสามารถนี้จะเข้ามาพลิกโฉมวิธีการเล่าเรื่องของครีเอเตอร์ละครสั้นได้ (โมเดลเหล่านี้สามารถสร้างวิดีโอความยาวสูงสุด 15 วินาที)

ภาดที่สร้างโดย AI และมี Text Prompt ว่า A surreal, cinematic 3D animation of a giant ripe pomegranate rolling through the heart of Paris, from Haussmann streets and Eiffel Tower vistas to bridges over the Seine and a modern skyline of glass skyscrapers. Low-angle and dynamic shots highlight vibrant red textures, motion, and scale as it dominates avenues and stone bridges. The pomegranate cracks and and explodes into thousands of translucent red petals that fill the space between skyscrapers.
ผู้ใช้สามารถเข้าใช้งานโมเดลเหล่านี้ผ่าน Model Studio ซึ่งเป็นแพลตฟอร์มพัฒนา AI ของอาลีบาบา คลาวด์ และผ่านเว็บไซต์อย่างเป็นทางการของ Wan นอกจากนี้ ยังมีการรวมโมเดลดังกล่าวเข้ากับ Qwen App ซึ่งเป็นแอปพลิเคชัน AI เรือธงของอาลีบาบาเรียบร้อยแล้ว
ในแง่ของความเข้าใจภาษา อาลีบาบาชี้ว่า Wan2.6 สามารถเข้าใจคำสั่งข้อความ (Text Prompts) ยาว ๆ ทั้งในภาษาจีนและภาษาอังกฤษได้ดี ดังตัวอย่างของ Text Prompt รูปผลทับทิมที่ตั้งอยู่ใจกลางกรุงปารีสด้านบน



