按时间归档:2023年07月

  • 语言模型|Prompt模板

    prompt.openai.wiki支持openAI的ChatGPT、Meta的LLaMA、百度的文心一言、讯飞的星火认知等模型,以及腾讯、阿里、华为、搜狗百川等,可以快速通过Prompt模板交互。

    语言 2023-07-17
    011.1K
  • FreeDrag|图像拖拽交互

    FreeDrag完美解决了DragGAN图像抖动鬼畜翻转等问题,DragGAN是由谷歌、麻省理工学院和马克斯普朗克研究所创建的一种新的人工智能模型。可以让你通过点击拖动等操作改变图像的姿势形状表情等。

    2023-07-15
    001.8K
  • AnimateDiff|文本生成视频

    AnimateDiff是一个用于实现个性化文本到图像扩散模型的动画化,动画化你的个性化文本到图像扩散模型。 可以通过文字生成视频,效果比Stable Diffusion中的图生图更好,闪烁趋近于无。

    2023-07-14
    024.6K
  • mPLUG|图像中文描述

    AI根据图片信息生成对应描述自动图像Tag标签,mplug_image-captioning_coco_base_zh模型是生成多模态的基础,基于skip-connections高效跨模态融合框架。

    2023-07-09
    021.4K
  • LaMa image inpainting|图像填充

    LaMa image inpainting 采用FFT卷积+普通卷积的方式从而有效地进行图像填充,能实现高分辨清晰图像填充,同时采用现在refinement策略,进一步提升高分辨率图像的填充效果。

    2023-07-09
    012.4K
  • Voice Changer|实时变音-WSL

    VC Client是一款用于实时音频转换的客户端软件,利用各种音频转换人工智能进行AI音频转换。支持的音频转换人工智能模型包括MMVC|So-Vits-SVC|RVC|DDSP-SVC等项目。

    2023-07-08
    001.9K
  • Paraformer|音频转文本

    Paraformer是达摩院语音团队提出的一种高效的非自回归端到端语音识别框架,支持中文通用语音AI智能识别并转换为文本文字且支持时间记录,模型可以被应用于语音输入法、语音导航、智能会议纪要等场景。

    2023-07-08
    023.0K
  • Voice Changer|实时变音

    VC Client是一款用于实时音频转换的客户端软件,利用各种音频转换人工智能进行AI音频转换。支持的音频转换人工智能模型包括MMVC|So-Vits-SVC|RVC|DDSP-SVC等项目。

    2023-07-07
    014.9K
  • Stable Diffusion |二维码生成

    使用Stable Diffusion WebUI的ControlNet功能进行实现AI自动生成QR二维码教程,目前主流的开源QR二维码艺术效果生成技术教程。

    2023-07-03
    052.5K
  • Segment Anything|语义分割

    通过Stable Diffusion WebUI的Segment Anything插件可以自由分割图像中的任意部分,也可以通过文字描述进行语义分割,省去了和Photoshop交互的时间。

    2023-07-02
    056.3K
微信