我有一个半可控AI生成想法:
首先,我们选择一个复杂度,作为树的深度。
接下来,树将立即生成图片的最大节点,并立即往下生成节点。
看起来像是 0图片 -> (1场景) -> (2具体场景) ->(3XXX),(1对象) -> (2人类) -> (3XXX),(2物体) -> (3XXX) 一直细分到最小噪点区块后,再开始逐个节点细节去噪,直到完成整个步骤。
人类还可以自己加入想要的叶节点和重置节点,作为局部重置。
树分割成两个,一个为轮廓树,一个为颜色树。
先填充轮廓树的相关内容后,然后再将节点转换成颜色树的内容进行填充。
然后去噪训练就可以切开分别训练,将图片转换成这样的树状格式作为训练集。
图片转换成层次,层次转换成标注,每个标注开始依次训练成我们需要的格式。
我知道,这实在太理想了。
但是通过早期人工标注,具有一定的基础后,再进行机器学习,最后深度学习。
现在也不可能直接做出来一张图片,但是如果现在只是还原某种小东西呢,比如人的一双手,这也许可以让AI认识真正的手指数量。
并且即使AI生成的形状很怪异,我们也可以通过自己编辑节点来让他进行手动局部生成。
这样是否可能是一个白盒,可操控式的AI图片生成?