NovelAI V3とV4(NovelAI Diffusion V4 Fullついに明日発表)

ゆるりと音声でお聞きになりたい方はこちら

NovelAIは、AIを活用したテキストおよび画像生成サービスとして、多くのユーザーに支持されています。特に、画像生成モデルの進化は目覚ましく、V3からV4へのアップデートで多くの新機能や改善が導入されました。本記事では、NovelAI V3とV4の主な違いについて解説します。

目次

モデルの基盤と学習データ

  • V3モデル: Stable DiffusionのSDXLを基に、独自の技術を組み合わせて開発されました。約600万枚の日本のアニメやポップカルチャーの画像を用いてトレーニングされ、画像生成を実現しています。
  • V4モデル: 完全に一から学習されたNovelAI初のオリジナル画像生成モデルです。これにより、プロンプトの解釈や生成結果がV3とは異なり、より柔軟で高精度な画像生成が可能となっています。

複数キャラクターの生成

  • V3モデル: 複数のキャラクターを同時に生成する際、各キャラクターの特徴が混ざり合うことがあり、個別の詳細な指定が難しい場合がありました。
  • V4モデル: 最大6人までのキャラクターを個別に指定できる「マルチキャラクタープロンプト」機能が追加されました。これにより、各キャラクターの外見やポーズ、配置などを詳細に設定でき、複雑なシーンの再現が容易になりました。

アクションタグの導入

  • V3モデル: キャラクター間の動作や関係性を詳細に指定することが難しく、プロンプトの工夫が必要でした。
  • V4モデル: 「アクションタグ」が導入され、キャラクター間の具体的な動作や関係性を明確に指定できるようになりました。例えば、「source#」「target#」「mutual#」といったタグを用いることで、キャラクター同士の相互作用を詳細に描写できます。

英語の自然言語理解能力の向上

  • V3モデル: プロンプトは主にタグベースでの指定が推奨されており、自然言語での詳細なシーン説明には限界がありました。
  • V4モデル: 英語の自然言語理解能力が向上し、詳細なシーン説明や複雑な指示にも対応できるようになりました。 これにより、ユーザーはより直感的にプロンプトを入力し、希望する画像を生成できます。

インペイント機能とバイブトランスファー

  • V3モデル: インペイント機能が搭載されており、画像の一部を修正・再生成することが可能でした。
  • V4モデル: プレビュー版ではインペイント機能やバイブトランスファー機能は未対応ですが、正式版での実装が予定されています。これにより、さらなる表現の幅が広がることが期待されています。

プロンプトの変更点

  • V3モデル: 品質タグのプリセットには「best quality」などが含まれていました。
  • V4モデル: 品質タグプリセットに「rating:general」が新たに加わり、「best quality」がプリセットから外れるなどの変更が見られます。これにより、生成される画像の傾向や品質に変化が生じています。

まとめ(利用しての感想)

以下、2点の理由でかなりの間、NovelAIから遠ざかっていたのですが

  • Stable DiffusionのSDXLの各種モデルやControllNetの台頭、更新頻度も頻繁で、V3は自由度も低く出力されたキャラも古く見えてしまっている。
  • にじじゃーにーは簡単な日本語入力で完成度が高い1枚絵を簡潔できる。

下記の理由で再開しています。

  • キャラのしなやかさが良く、ポージングも良くなっていたこと
  • 古いはずの2014年アニメのキャラがV3では出なかったのに、V4 では今風にアレンジされて出ること(とても大事

Ⅴ3です。キャラが古くて固いかんじです。

V4(プレビュー版) です。表情もしなやかさも相当よくなっています。

以上、ありがとうございました。

広告

目次