0372名無しさん@ゴーゴーゴーゴー! (ワッチョイ 1923-0x8r)
2023/06/17(土) 14:50:40.97ID:cv6aLf/P0基本は369の言う通りでALTつきの画像を選別したあとのリンク集がLAION5Bの58億枚
そのうち英語のキャプションを選別したのがLAION 2Bの23億枚
この23億枚と美的に優れた1億6千枚のLAION aesheticをCLIPというゼロショット学習モデル(自動タグ割り振り装置。こちらは6億枚の画像テキストデータセットで訓練)で処理したのがstable diffusion
novelAIはLAIONから10億枚学習させたあと、CLIPの低い精度を補うためにdanbooruデータセット500万枚で追加学習したモデル
おそらく今後danbooruデータセット以上に優れたアニメデータセットは生まれないと思われるので
今後もLoRAとかの微調整でちょこちょこいじって技術者気取りの痛いやつがデカい顔して終わるのが日本の現状
たぶんniji midはCLIPを独自開発してると思う
それか人間に好ましい絵を四枚から選択させプロンプトで再学習させることで剪定したモデルを何台も用意してモードを使い分けてるか