图像16

视觉交互

FreeDrag|图像拖拽交互

FreeDrag完美解决了DragGAN图像抖动鬼畜翻转等问题,DragGAN是由谷歌、麻省理工学院和马克斯普朗克研究所创建的一种新的人工智能模型。可以让你通过 ...

mPLUG|图像中文描述

AI根据图片信息生成对应描述自动图像Tag标签,mplug_image-captioning_coco_base_zh模型是生成多模态的基础,基于skip-connections高效跨模态融合框架。 ...
图像填充

LaMa image inpainting|图像填充

LaMa image inpainting 采用FFT卷积+普通卷积的方式从而有效地进行图像填充,能实现高分辨清晰图像填充,同时采用现在refinement策略 ...

视觉交互
DragGAN|图像拖拽交互

DragGAN是由谷歌、麻省理工学院和马克斯普朗克研究所创建的一种新的人工智能模型。可以让你轻松通过点击拖动等简单的交互操作就能改变拍摄对象的姿势、形状和表情等。 ...
风格化

Geometrize|图像转几何图形

Geometrize是将图像生成几何图形重绘的工具,该项目可以用圆形、三角形、矩形等几何图形重新绘制图像,并将结果导出为SVG、PNG、JPG、GIF等格式,可 ...
画质增强

GPEN|人像修复增强

GPEN算法会对图像中的每一个检测到的人像做修复和增强,对图像中的非人像区域采用RealESRNet做两倍的超分辨率,最终返回修复后的完整图像。 不止是修复和增 ...
视觉交互

InternGPT|语言驱动视觉交互系统

InternGPT简称iGPT或InternChat简称iChat,是一种基于指向语言驱动的视觉交互系统,internGPT 的名称代表了 interactio ...

multi-style_portrait_stylization|人像多风格漫画

本项目用于将人像照片转换为卡通风格。采用DCT-Net模型,支持GPU/CPU推理,适用于包含人脸的人像照片,推理流程包括预处理、人脸关键点检测、人脸提取和对齐,以及背景融合得到最终效果。 ...

图形识别
CV_ORC-Text-Spotting|多场景文字ORC识别

CV_ORC-Text-Spotting是一个多场景文字识别模型,可用于提取图片中的文字并输出对应字符串。该模型可适用于多种场景的文字识别,包括手写、自然、车牌和文档印刷,并提供了相应的文本检测模型。 ...

Segment-Anything|万物分割

分割任何物体(Segment Anything Model),可输入提示生成高质量的对象掩码,用于图像中所有对象的分割任务。该模型有望取代传统的OpenCV,成为未来图像分割抠图领域的主流模型。 ...