当前位置：网站首页 >学术论文 >正文

可灵AI

AI类型：学术论文

4 分

访问次数

欢迎程度

关注程度

阅读次数

推荐次数

访问官网

简介

可灵大模型是快手团队推出的AI视频生成大模型，具备强大的视频创作能力，采用3D时空联合注意力机制，能够生成符合物理规律的大幅度运动视频，模拟真实世界特性。可灵支持生成长达2分钟、1080p分辨率的高清视频，并具有自由调整宽高比的功能。此外，该AI视频工具还结合了3D人脸和人体重建技术，实现表情和肢体的全驱动，只需一张全身照即可体验生动的AI唱跳功能。

可灵大模型的功能特色

大幅度的合理运动：采用3D时空联合注意力机制，能够建模复杂时空运动，生成符合运动规律的大幅度运动视频。长达2分钟的视频生成：得益于高效的训练基础设施和推理优化，可灵能生成长达2分钟的视频内容。模拟物理世界特性：基于自研模型架构，能模拟真实世界的物理特性，生成符合物理规律的视频。强大的概念组合能力：利用对文本-视频语义的深刻理解和Diffusion Transformer架构，将用户想象力转化为具体画面。电影级的画质生成：基于自研3D VAE技术，可生成1080p分辨率的电影级视频。支持自由的视频宽高比：采用可变分辨率训练策略，能够在推理过程中输出多样的视频宽高比。AI驱动的创新玩法：结合3D人脸和人体重建技术，实现表情肢体全驱动，用户上传全身照即可体验生动的AI唱跳玩法。图生视频：可灵模型将静态图像转化为5秒动态视频，用户可通过文本提示生成多样化的运动效果。视频续写：支持对现有视频一键续写，每次延长4.5秒，可多次续写，最长可达3分钟，实现用户创意。

如何体验可灵大模型

可灵大模型官网（kling.kuaishou.com）已上线，目前支持通过快影App进行体验。快影App的AI创作功能中已正式开放文生视频功能的邀测，创作者可申请并体验可灵大模型最新的文生视频功能。

下载快影App：首先，在手机上下载并安装快影App。注册/登录账户：打开快影App后，使用快手账户登录。进入AI创作功能：在快影App中找到AI创作功能区域。申请体验：可灵大模型处于邀测阶段，申请成为测试用户才能体验该功能。上传素材：根据可灵大模型提供的功能，上传所需的素材，例如全身或半身照片，以便进行面部和肢体的驱动。使用AI功能：选择可灵大模型提供的具体功能，如AI舞王或AI唱跳等，按照提示操作。生成视频：根据App的指引，使用可灵大模型生成视频内容。编辑和导出：生成视频后，可以在App内对视频进行编辑，然后导出或分享作品。

可灵大模型的应用场景

艺术视频创作：用户可以利用可灵大模型生成具有创意的艺术视频，用于个人表达或商业展示。社交媒体内容：社交媒体用户可以通过可灵大模型制作吸引人的视频内容，增加粉丝互动和提高内容的吸引力。广告制作：广告行业可以利用可灵大模型快速生成高质量的广告视频，提高制作效率并降低成本。影视特效预览：影视制作团队可以使用可灵大模型来预览特效场景，加快前期制作和决策过程。个性化娱乐：用户可以上传自己的照片，通过可灵大模型生成个性化的娱乐视频，如AI唱跳视频。新闻和报道：新闻机构可以使用可灵大模型生成新闻报道视频，快速传达信息。

相关资讯更多+

BrushEdit – 腾讯和北大等联合推出的图像编辑框架，指令引导图像编辑和修复
BrushEdit是腾讯和北京大学等机构联合推出的先进图像编辑框架，是BrushNet模型的高级迭代版本。框架结合多模态大型语言模型（MLLMs）和双分支图像修复模型，实现基于指令引导的图像编辑和修复，支持用户用自然语言指令进行自由形式的、多轮交互式的编辑操作。

AI教程资讯 2025-01-23
Bocha Semantic Reranker – 博查推出的语义排序模型
Bocha Semantic Reranker是博查AI推出的语义排序模型，能提升搜索应用和RAG应用中的搜索结果准确性。Bocha Semantic Reranker模型基于文本语义，对初步排序的搜索结果进行二次优化，用评估查询语句与文档内容的深层语义匹配，给出排序得分，改善用户搜索体验。

AI教程资讯 2025-01-23
Ruyi – 图森未来推出的图生视频大模型
Ruyi是图森未来科技有限公司推出的图生视频大模型，专为在消费级显卡上运行设计，支持多分辨率、多时长视频生成，具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构，由Casual VAE模块和Diffusion Transformer组成，用在视频数据压缩和生成。

AI教程资讯 2025-01-23
Large Action Models – 微软推出的行动大模型开发框架
Large Action Models（LAMs）是微软推出大型行动模型的开发框架，能执行真实世界行动的智能系统，LAMs超越传统LLMs（Large Language Models，大型语言模型）的文本生成能力。LAMs能理解用户意图，在物理和数字环境中自动执行复杂任务。

AI教程资讯 2025-01-23