视频模型

视频模型通过将输入的文本/图片转换为动态视频，赋予了文字以视觉效果，拓宽了表达的维度。它不仅能帮助创作者节省大量时间，还能生成高质量、富有创意的视觉内容。在各种应用场景中，包括教育、广告、娱乐等，文本生成视频模型的潜力都得到了充分展现。

以下模型都已支持购买：

系列	模型
MaaS_Sora	MaaS_Sora_2
MaaS_Veo	MaaS_Veo_3.1_generate_preview MaaS_Veo_3.1_fast_generate_preview
MaaS_HaiLuo	MaaS_HaiLuo_02 MaaS_HaiLuo_2.3 MaaS_HaiLuo_2.3_fast
MaaS_KeLing	MaaS_KeLing_V2.6 MaaS_KeLing_O1_video MaaS_KeLing_V2.5_turbo MaaS_KeLing_V2.1_master MaaS_KeLing_V2.1 MaaS_KeLing_V1.6
MaaS_Seedance	MaaS_Seedance_1.5_pro MaaS_Seedance_1.0_pro MaaS_Seedance_1.0_lite_i2v MaaS_Seedance_1.0_lite_t2v MaaS_Seedance_1.0_lite_t2v
MaaS_GP	MaaS_GP_image_1 MaaS_HaiLuo_2.3 MaaS_HaiLuo_2.3_fast
MaaS_HG	MaaS_HG_video_translate

MaaS_Seedance系列

MaaS_Seedance模型以精准指令遵循与高效创作适配为核心优势，覆盖文生视频、图生视频全场景，兼顾专业质感与落地效率。其核心特点包括：支持 480P-1080P 多分辨率输出，生成 5-10 秒高品质视频，画面影调细腻、色彩丰富，适配移动端与大屏展示；具备影视级运镜能力，可实现环绕、航拍、变焦等多种镜头语言，支持 2-3 个镜头无缝切换的多镜头叙事；指令理解精准，能精细控制人物外貌、动作及多主体交互，运动轨迹符合物理规律，降低生成崩坏率；内置写实、动漫、水墨等多元风格库，支持 1-4 张参考图特征提取，适配虚拟人舞蹈生成、电商广告、短视频创作、影视分镜验证等场景

MaaS_Sora系列

Sora 视频模型是一款聚焦高保真视频生成的专业级模型，以精准物理规律模拟与长时叙事连贯性为核心优势，支持文本、图像多模态输入及多分辨率适配。其核心特点包括：可生成最长 60 秒高清视频，能精准还原流体动力学、刚体碰撞等物理效果，确保物体运动自然无违和；具备原生音画同步能力，人物对话与场景音效高度匹配；支持多镜头无缝切换与跨场景叙事，保持角色、场景的视觉一致性，大幅降低专业视频创作的技术门槛，适配影视分镜、品牌宣传片、创意短片等多元场景。

MaaS_KeLing系列

生视频MaaS_KL系列是新一代多模态视频生成大模型，通过算法架构创新与全栈优化技术，实现了高质量、高效率、高可控的视频内容生成能力，为影视制作、广告营销、教育娱乐等领域提供革命性工具。

卓越的视频生成能力

支持文生视频、图生视频功能，还具备视频续写功能，可为已生成的视频提供便捷的视频延伸，为创作者提供了更灵活的创作方式，方便构建完整的视频故事。

大幅度合理运动生成

采用 3D 时空联合注意力机制，能够更好地建模视频中的复杂时空运动，不仅可以生成大幅度的运动，且生成的运动更符合客观运动规律，让想象力在符合现实运动逻辑的基础上生动展现。

物理世界特性模拟

构建出无限逼近现实的想象空间，生成符合物理规律的视频，集成物理仿真引擎与光流引导插帧技术，实现烟雾、流体等动态效果逼真渲染，增强视频的真实感和沉浸感。

MaaS_HaiLuo系列

视频模型MaaS_HL系列是基于深度学习技术的智能视频生成解决方案，通过多模态输入解析与时空一致性建模，实现从文本 / 图像到高质量视频的端到端生成。该模型采用创新的多帧一致性算法，结合专业级运镜特效库，支持文生视频、图生视频、主体稳定控制等核心功能，可广泛应用于内容创作、广告制作、虚拟直播等场景。

强大的多模态生成能力

支持文本到视频（T2V）和图像到视频（I2V）双模态输入，无论是基于详实文字构建虚拟场景，还是依托单张图片延展动态情节，都能精准把握用户意图，高效产出视频内容，契合多样化创作需求。

卓越的主体一致性保障

凭借独创的 “主体参考” 技术，仅需一张参考图片，就能构建起三维特征空间，在复杂光照与多角度运镜等严苛场景下，经第三方测试，面部特征还原准确率高达 98.7%，远超行业均值，有效攻克主体形象不稳定这一行业难题。

智能的用户体验优化

内置 AI 提示词生成器，能自动解析用户输入，给出优化建议，大幅提升新手创作者对指令的遵循准确率，降低创作门槛。同时，单轮生成耗时被控制在 1 - 3 分钟，且支持 5 组并行任务，配合多帧一致性算法，在保证高画质输出的同时，显著压缩生成成本。

MaaS_veo系列

Veo是谷歌推出的视频生成模型，能依文本、图像生成超60秒的1080P高清视频，甚至Veo 3可支持4K输出。其主要功能如下：

精准自然语言理解与执行：深入理解自然语言，解析“延时摄影”等电影术语，按文本提示精准生成视频。
多样风格生成：支持从现实主义到抽象等多种视觉与电影风格，依用户提示创作。
创意定制：用户通过文本提示，精细调控视频的光照、镜头语言、场景、动作、色彩等。
多输入生成：既支持文本生成视频，也能以图像为参考，结合文本提示生成视觉上匹配的视频。