首页 - 学术科研 - 神经网络 - 数据挖掘

Stable Diffusion基础：ControlNet之重新上色（黑白照片换新颜）

2024-01-23 03:23:25 苏内容

标签： AI

阅读：3873

本文给大家分享 Stable Diffusion 的基础能力：ControlNet 之重新上色。

这是一个最近新上的 ControlNet 模型，它可以识别图像中的不同区域，并使用不同的颜色重新绘制它们。

安装

ControlNet 安装

工欲善其事必先利其器，ControlNet 还是先要安装好的，已经安装好的请跳过这一步。

之前的文章已经介绍过相关安装方法，大家请点击这个链接移步过去：ControlNet 安装与基本使用方法

注意需要将 ControlNet 插件升级到 v1.1.410 这个版本，这个版本支持新的 ControlNet 类型。

Recolor 安装

使用 Recolor 前，还需要先安装几个模型：

<stable-diffusion-webui>/extensions/sd-webui-controlnet/models/ioclab_sd15_recolor.safetensors

<stable-diffusion-webui>/extensions/sd-webui-controlnet/models/sai_xl_recolor_128lora.safetensors

<stable-diffusion-webui>/extensions/sd-webui-controlnet/models/sai_xl_recolor_256lora.safetensors

这里支持 SDXL 的模型有两个 128lora 和 256lora，它们来源于 Stable Diffusion 的开发公司 StabilityAI 。

为什么有两个呢？首先它们都有一个后缀 lora，这是 StabilityAI 将 Lora 模型的方法引入到了 ControlNet 中，此类模型称为 ControlNet-LoRAs，128、256 分别代表了不同的压缩比例，256的模型文件大小约738M，128的文件更小约377M。文件大参数多，文件小易传播，但是256的效果并不一定比128好，还需根据实际出图情况选择。更多详情可以看 HuggingFace 上的官方介绍：https://huggingface.co/stabilityai/control-lora

不方便访问 huggingface 的同学可以通过我整理的资源下载，下载方式见文章最后；或者直接使用 AutoDL 上我发布的镜像：https://www.codewithgpu.com/i/AUTOMATIC1111/stable-diffusion-webui/yinghuoai-sd-webui-fast

基本使用

Recolor 可以用在“文生图”和“图生图”，实测 Recolor 在这两种方式下的效果差不多，这里以文生图为例，原图是这样的：

首先选择一个大模型，这里选择的是真实视觉模型 realisticVisionV51，实际使用时请根据要重新上色的图片选择。

提示词和反向提示词也可以不写，Recolor 会自己选颜色，但是要想达到特定的控制效果，还是得自己写。比如我这里想要把头发改成红色、裙子变成黄色。

Stable Diffusion 参数这里没什么好说的，默认或者自己根据需要改改都行。

最重要的是 ControlNet 这里，选择任意一个 ControlNet 单元，上传一张照片，勾选“启用”和“完美匹配像素”。

我这里还特别开启了“允许预览”，并生成了预览图，大家注意看这个预览图，相比原图，它去掉了色彩，变成了一张黑白照片。从这里可以看出 Recolor 的本质能力是对黑白图片上色，其基本处理过程是先使用预处理器提取黑白图，然后再识别图片的各个区域进行上色处理。

看下 Recolor 的几个参数：

预处理器有两个：

recolor_luminance：提取图像特征信息时注重颜色的亮度，实测大部分情况下这个效果更好。

recolor_intensity：提取图像特征信息时注重颜色的饱和度。

模型有三个：

ioclab_sd15_recolor.safetensors 适用于 Stable Diffusion 1.5 的模型。

sai_xl_recolor_128lora.safetensors 适用于 Stable Diffusion XL 的模型，模型的低秩矩阵有128维。

sai_xl_recolor_256lora.safetensors 适用于 Stable Diffusion XL 的模型，模型的低秩矩阵有256维。

Gamma Correction：伽玛校正，这个词比较专业，大概是说人眼对亮度的识别是不均匀的，对暗区的变化比较敏感，对亮区的变化比较迟钝，为了调节生成图片的感受亮度，以及在不同的显示设备上输出，就搞出了一个幂函数，来映射真实亮度和感受亮度，这个伽马值就是函数的幂。默认为1，如果感觉生成的图片暗就调小一点，如果感觉生成的图片过亮，就调大一点。

其它的几个参数我们已经在 ControlNet 的基本使用方法中介绍过了，不清楚的请移步：安装与基本使用方法