ゆるりと音声でお聞きになりたい方はこちら
NovelAIは、AIを活用したテキストおよび画像生成サービスとして、多くのユーザーに支持されています。特に、画像生成モデルの進化は目覚ましく、V3からV4へのアップデートで多くの新機能や改善が導入されました。本記事では、NovelAI V3とV4の主な違いについて解説します。
目次
モデルの基盤と学習データ
- V3モデル: Stable DiffusionのSDXLを基に、独自の技術を組み合わせて開発されました。約600万枚の日本のアニメやポップカルチャーの画像を用いてトレーニングされ、画像生成を実現しています。
- V4モデル: 完全に一から学習されたNovelAI初のオリジナル画像生成モデルです。これにより、プロンプトの解釈や生成結果がV3とは異なり、より柔軟で高精度な画像生成が可能となっています。
複数キャラクターの生成
- V3モデル: 複数のキャラクターを同時に生成する際、各キャラクターの特徴が混ざり合うことがあり、個別の詳細な指定が難しい場合がありました。
- V4モデル: 最大6人までのキャラクターを個別に指定できる「マルチキャラクタープロンプト」機能が追加されました。これにより、各キャラクターの外見やポーズ、配置などを詳細に設定でき、複雑なシーンの再現が容易になりました。
アクションタグの導入
- V3モデル: キャラクター間の動作や関係性を詳細に指定することが難しく、プロンプトの工夫が必要でした。
- V4モデル: 「アクションタグ」が導入され、キャラクター間の具体的な動作や関係性を明確に指定できるようになりました。例えば、「source#」「target#」「mutual#」といったタグを用いることで、キャラクター同士の相互作用を詳細に描写できます。
英語の自然言語理解能力の向上
- V3モデル: プロンプトは主にタグベースでの指定が推奨されており、自然言語での詳細なシーン説明には限界がありました。
- V4モデル: 英語の自然言語理解能力が向上し、詳細なシーン説明や複雑な指示にも対応できるようになりました。 これにより、ユーザーはより直感的にプロンプトを入力し、希望する画像を生成できます。
インペイント機能とバイブトランスファー
- V3モデル: インペイント機能が搭載されており、画像の一部を修正・再生成することが可能でした。
- V4モデル: プレビュー版ではインペイント機能やバイブトランスファー機能は未対応ですが、正式版での実装が予定されています。これにより、さらなる表現の幅が広がることが期待されています。
プロンプトの変更点
- V3モデル: 品質タグのプリセットには「best quality」などが含まれていました。
- V4モデル: 品質タグプリセットに「rating:general」が新たに加わり、「best quality」がプリセットから外れるなどの変更が見られます。これにより、生成される画像の傾向や品質に変化が生じています。
まとめ(利用しての感想)
以下、2点の理由でかなりの間、NovelAIから遠ざかっていたのですが
- Stable DiffusionのSDXLの各種モデルやControllNetの台頭、更新頻度も頻繁で、V3は自由度も低く出力されたキャラも古く見えてしまっている。
- にじじゃーにーは簡単な日本語入力で完成度が高い1枚絵を簡潔できる。
下記の理由で再開しています。
- キャラのしなやかさが良く、ポージングも良くなっていたこと
- 古いはずの2014年アニメのキャラがV3では出なかったのに、V4 では今風にアレンジされて出ること(とても大事)

Ⅴ3です。キャラが古くて固いかんじです。

V4(プレビュー版) です。表情もしなやかさも相当よくなっています。
以上、ありがとうございました。
広告
