从接触SD到现在,相信大家一定使用过各种各样的lora,包括人物的、建筑的、画风的等等,那么你有没有想过炼制一款属于自己的lora模型呢。
我们先来了解一下炼丹的基础概念,它的关键原理就是——等价交换法则!
不好意思,说错了。
重新来,Lora全称Low-Rank Adaptation Models,中文翻译为低阶自适应模型。它的作用在于影响和微调画面。通过lora的帮助,可以再现人物或物品的特征。
大模型的训练通常是非常复杂且需要很高的电脑配置的,LoRA采用的方式就是在原有的模型中插入新的数据处理层,这样就避免了修改原有模型的参数。LORA模型训练,其实就是用一些特定特征来替换大模型中的对应元素,比如一个固定的人物相貌、特定的服装或者是特定的风格,这样就可以生成不同于底模的图片。
所以,lora训练是比较轻量化的,需要的显存也少了很多,硬件门槛显存达到6G就可以开启训练了。
我们今天要使用的是B站UP主“朱尼酱”的赛博丹炉,他的这款丹炉,界面更加友好、美观,适合新手入门。
废话不多说,我们就正式开始吧。
![640 640](https://blog.75live.com/wp-content/uploads/2024/08/640.jpeg)
![640-4 640-4](https://blog.75live.com/wp-content/uploads/2024/08/640-4.png)
等待一段时间,我们的赛博丹炉就正式启动了,画面非常的炫酷,有一种未来科技的感觉。
首先是学习步数,指的是AI对我们每一张图片的学习次数。根据我们的训练内容,二次元图片的repeat一般在10-15,写实人物图片的repeat一般在30-50,真实世界的一些景观场景可能要达到100。repeat值越高,ai就能更好的读懂我们的图片,理论上讲图片的精细度越高,学习步数就要越高。
循环次数:AI将我们的所有图片按照学习步数学习一轮就是一次循环,那循环次数就是将这个过程重复多少遍。一般数值在10-20之间,次数并不是越多越好,因为学多了就会知识固化,变成一个书呆子,画什么都和我们的样图一样,我们称之为过拟合。每一次循环我们都会得到一个炼丹结果,所以epoch为10的话,我们就训练完之后就会得到10个丹。
我们总的训练步数,就是:图片张数*学习步数*循环次数=训练步数。
即:5*50*10=2500步
质量设置主要是用来影响产出LORA的一个最终质量,当然最终lora的好坏还需要通过XYZ去测试和看实际的loss值。
学习率指的是AI学习图片时的效率,学习率太高会出现过拟合,图片和素材太相似;学习率低会出现不拟合,图片和素材没关系。
1e-4是一种程序里的数学表达,实际上就是1除以10的4次方,即:
1e-4=1/10000=0.0001
1e-5=1/100000=0.00001
这三个数值呢,一般情况下我们保持默认就可以,如果想要调整的话,点击数值旁边的加减号就可以了,很直观。
![640-16 640-16](https://blog.75live.com/wp-content/uploads/2024/08/640-16.png)
网格维度:network dim决定了出图的精细度,就像细分网格一样。数值越高,会有助于AI学会更多的细节。同样,也不是数值越大越好,数值越大,学习越慢,训练时间越长,容易过拟合。
DIM为32时,输出的文件一般为40MB+;
DIM为64时,输出的文件一般为70MB+;
DIM为128时,输出的文件一般为140MB+;
场景 | DIM | 备注 |
二次元 | 32 | 画风越复杂,dim越高 |
人物 | 32-128 | 常见主流lora大部分使用128 |
实物、风景 | ≥128 | 根据训练对象复杂度提升dim |
样图设置主要是用来控制在训练过程中的样图显示,这样我们能实时观测到训练过程中的效果。
![640-19 640-19](https://blog.75live.com/wp-content/uploads/2024/08/640-19.png)
sample every n steps为50,就代表着每50步生成一张样图。
进入TAG编辑当中,可以看到每张图片都被自动加上了标签,可以说是非常方便了。
![640-27 640-27](https://blog.75live.com/wp-content/uploads/2024/08/640-27.png)
点击“免费体验通用文本翻译API”。
# 炼丹
![640-35 640-35](https://blog.75live.com/wp-content/uploads/2024/08/640-35.png)
炼丹完成并不意味着结束,这些丹到底成不成功呢?我们还需要将这些丹放入SD当中,进行跑图测试。
不然的话,万一……
不可能,绝对不可能!
我们进入SD的lora文件夹中——E:\sd-webui-aki-v4.2\models\Lora,新建一个文件夹,命一个名字“tifa”。
我们将一张tifa的图片放入WD 1.4 标签器中,反推关键词,然后发送到文生图。
![640-45 640-45](https://blog.75live.com/wp-content/uploads/2024/08/640-45.png)
接下来,我们就要在茫茫多的tifa当中,用肉眼来寻找里面觉得最像的一张,这个过程是艰辛的,大家要坚持住,我们就快成功了。经过对比,我觉得编号00003在权重为1时是最像的,那就决定是你了!
文章评论