AI语音转写文字,有助于记录、转录、总结和共享会议对话,最大限度提高内部会议和面向客户会议价值。
VideoTuna是集成多种AI视频生成模型的代码库,支持文本到视频、图像到视频和文本到图像的转换。VideoTuna提供预训练、持续训练、后训练对齐和微调等全面视频生成流程,支持U-Net和DiT架构,并计划推出3D视频VAE及可控面部视频生成模型。
AI教程资讯
2025-02-11
ComfyUI-MochiEdit是基于ComfyUI和Genmo Mochi的开源视频编辑工具,基于将视频转换为噪声、重新采样实现视频编辑,支持局部编辑和视频转视频功能。用户能调整噪声校正强度、对齐强度等参数控制视频效果,与ComfyUI-MochiWrapper节点结合使用,实现更复杂的编辑需求。
AI教程资讯
2025-02-11
HiCo是360 AI研究院推出的基于扩散模型的层次化可控布局到图像生成模型,HiCo基于多分支结构设计,实现对对象位置和文本描述的精确控制。HiCo的关键特点在于进行空间解耦,有效地处理复杂布局,减少对象缺失和视角冲突等问题。
AI教程资讯
2025-02-11
Ferret-UI 2是苹果公司推出的多模态大型语言模型,用在理解和交互移动用户界面。Ferret-UI 2能识别和理解各种移动设备屏幕上的UI元素,执行复杂的用户指令,实时观察用户在移动设备屏幕上的操作,随时准备提供帮助和执行任务。
AI教程资讯
2025-02-11