2023 年 7 月-openAI维基百科

语言模型｜Prompt模板

prompt.openai.wiki支持openAI的ChatGPT、Meta的LLaMA、百度的文心一言、讯飞的星火认知等模型，以及腾讯、阿里、华为、搜狗百川等，可以快速通过Prompt模板交互。

语言 2023-07-17

0012.5K

视觉交互

FreeDrag｜图像拖拽交互

FreeDrag完美解决了DragGAN图像抖动鬼畜翻转等问题，DragGAN是由谷歌、麻省理工学院和马克斯普朗克研究所创建的一种新的人工智能模型。可以让你通过点击拖动等操作改变图像的姿势形状表情等。

2023-07-15

0003.0K

视频生成

AnimateDiff｜文本生成视频

AnimateDiff是一个用于实现个性化文本到图像扩散模型的动画化，动画化你的个性化文本到图像扩散模型。可以通过文字生成视频，效果比Stable Diffusion中的图生图更好，闪烁趋近于无。

2023-07-14

0026.9K

图像识别

mPLUG｜图像中文描述

AI根据图片信息生成对应描述自动图像Tag标签，mplug_image-captioning_coco_base_zh模型是生成多模态的基础，基于skip-connections高效跨模态融合框架。

2023-07-09

0022.8K

扩展填充

LaMa image inpainting｜图像填充

LaMa image inpainting 采用FFT卷积+普通卷积的方式从而有效地进行图像填充，能实现高分辨清晰图像填充，同时采用现在refinement策略，进一步提升高分辨率图像的填充效果。

2023-07-09

0014.2K

人声模拟

Voice Changer｜实时变音-WSL

VC Client是一款用于实时音频转换的客户端软件，利用各种音频转换人工智能进行AI音频转换。支持的音频转换人工智能模型包括MMVC｜So-Vits-SVC｜RVC｜DDSP-SVC等项目。

2023-07-08

0003.5K

音频识别

Paraformer｜音频转文本

Paraformer是达摩院语音团队提出的一种高效的非自回归端到端语音识别框架，支持中文通用语音AI智能识别并转换为文本文字且支持时间记录，模型可以被应用于语音输入法、语音导航、智能会议纪要等场景。

2023-07-08

0125.1K

人声模拟

Voice Changer｜实时变音

VC Client是一款用于实时音频转换的客户端软件，利用各种音频转换人工智能进行AI音频转换。支持的音频转换人工智能模型包括MMVC｜So-Vits-SVC｜RVC｜DDSP-SVC等项目。

2023-07-07

01618.7K

Stable Diffusion

Stable Diffusion ｜二维码生成

使用Stable Diffusion WebUI的ControlNet功能进行实现AI自动生成QR二维码教程，目前主流的开源QR二维码艺术效果生成技术教程。

2023-07-03

0154.1K

Stable Diffusion

Segment Anything｜语义分割

通过Stable Diffusion WebUI的Segment Anything插件可以自由分割图像中的任意部分，也可以通过文字描述进行语义分割，省去了和Photoshop交互的时间。

2023-07-02

0158.9K

按时间归档：2023年07月