2023 年-openAI维基百科

图像识别

mPLUG｜图像中文描述

AI根据图片信息生成对应描述自动图像Tag标签，mplug_image-captioning_coco_base_zh模型是生成多模态的基础，基于skip-connections高效跨模态融合框架。

2023-07-09

0023.1K

扩展填充

LaMa image inpainting｜图像填充

LaMa image inpainting 采用FFT卷积+普通卷积的方式从而有效地进行图像填充，能实现高分辨清晰图像填充，同时采用现在refinement策略，进一步提升高分辨率图像的填充效果。

2023-07-09

0014.5K

人声模拟

Voice Changer｜实时变音-WSL

VC Client是一款用于实时音频转换的客户端软件，利用各种音频转换人工智能进行AI音频转换。支持的音频转换人工智能模型包括MMVC｜So-Vits-SVC｜RVC｜DDSP-SVC等项目。

2023-07-08

0003.8K

音频识别

Paraformer｜音频转文本

Paraformer是达摩院语音团队提出的一种高效的非自回归端到端语音识别框架，支持中文通用语音AI智能识别并转换为文本文字且支持时间记录，模型可以被应用于语音输入法、语音导航、智能会议纪要等场景。

2023-07-08

0125.5K

人声模拟

Voice Changer｜实时变音

VC Client是一款用于实时音频转换的客户端软件，利用各种音频转换人工智能进行AI音频转换。支持的音频转换人工智能模型包括MMVC｜So-Vits-SVC｜RVC｜DDSP-SVC等项目。

2023-07-07

01619.0K

Stable Diffusion

Stable Diffusion ｜二维码生成

使用Stable Diffusion WebUI的ControlNet功能进行实现AI自动生成QR二维码教程，目前主流的开源QR二维码艺术效果生成技术教程。

2023-07-03

0154.4K

Stable Diffusion

Segment Anything｜语义分割

通过Stable Diffusion WebUI的Segment Anything插件可以自由分割图像中的任意部分，也可以通过文字描述进行语义分割，省去了和Photoshop交互的时间。

2023-07-02

0159.3K

视觉交互

DragGAN｜图像拖拽交互

DragGAN是由谷歌、麻省理工学院和马克斯普朗克研究所创建的一种新的人工智能模型。可以让你轻松通过点击拖动等简单的交互操作就能改变拍摄对象的姿势、形状和表情等。

2023-07-01

0114.3K

风格化

Geometrize｜图像转几何图形

Geometrize是将图像生成几何图形重绘的工具，该项目可以用圆形、三角形、矩形等几何图形重新绘制图像，并将结果导出为SVG、PNG、JPG、GIF等格式，可以快速生成特定图形的风格图像或动画文件。

2023-06-29

0002.8K

其它模型

ChatGLM2-6B｜开源本地化语言模型

ChatGLM2-6B是清华开源语言模型的最新升级版本、支持中英双语的对话语言模型，速度较上一代有较大提升。它使用了GLM架构和量化技术，可在消费级显卡上进行本地部署，效果堪比ChatGPT。

2023-06-28

005317.1K

按时间归档：2023年