Udioは、音楽生成AIの新しいプレイヤーであり、2024年4月10日にパブリックベータ版として一般公開されました1。このAIは、テキストプロンプトを入力するだけで、高品質な音楽を生成できる特徴を持っています。Google DeepMindの研究者やエンジニアによって開発され、その音楽生成能力は「AIかどうか判別できないクオリティ」と評されています。
(more…)AI
Human-SGD: 単一画像からの3D人間デジタル化
1. はじめに
近年、AIと3Dモデリングの融合により、単一の画像から高解像度の3Dモデルを生成する技術が注目されています。その中でも、特に注目を集めているのが「Human-SGD」です。この技術は、たった一枚の写真から人間の3Dモデルを生成することが可能で、その精度とリアリティは驚くべきものがあります。
(more…)Animate Anyone: アニメーションの新時代
はじめに
アニメーションは、私たちの生活のあらゆる側面に影響を与えています。映画、テレビ番組、ビデオゲーム、ウェブサイト、広告、教育、そしてそれ以上のものが、アニメーションの力を利用して視覚的なストーリーテリングを強化し、ユーザーエンゲージメントを向上させています。しかし、アニメーションの制作は時間と労力を必要とする複雑なプロセスであり、専門的なスキルと知識を必要とします。これが、Animate Anyoneの登場が画期的な意味を持つ理由です。
(more…)AI Vtuber
AI Vtuberとは、人工知能(AI)を使って自動的に受け答えができるVTuberのことです。AI Vtuberになるには、キャラクターの作成や音声合成、コメントの取得や応答など、いくつかのステップが必要です。この記事では、AI Vtuberの作り方・始め方を簡単に紹介します。
(more…)TensorRT Extension for Stable Diffusion
TensorRT Extension for Stable Diffusionとは、NVIDIAのRTX GPUを利用してStable Diffusionのパフォーマンスを2倍に向上させる拡張機能です。
Stable Diffusionは、テキストや画像から画像を生成することができる人工知能モデルで、Automatic1111という人気のある配布版があります。この記事では、TensorRT Extension for Stable Diffusionのインストール方法と使い方について解説します。
(more…)llama-cpp-pythonでdiscordのチャットBOTを作ろう
今回は、llama-cpp-pythonというライブラリを使って、discordのチャットBOTを作る方法を紹介します。llama-cpp-pythonは、Llama系の言語モデルをPythonから呼び出すことができるライブラリです。Llama系の言語モデルとは、人工知能が自然言語を理解し、生成するためのモデルです。このモデルを使えば、チャットBOTに対話能力や創造力を持たせることができます。
(more…)Stable DiffusionでLoRAの亜種LyCORISを使ってみよう!
こんにちは。今回は、Stable DiffusionでLoRAの亜種であるLyCORISを使ってみる方法を紹介します。LyCORISとは、Stable Diffusionという画像生成モデルを微調整するためのアルゴリズムで、LoRAと比べて高効率の学習ができるといわれています。
(more…)Stable Diffusionでよく使われるネガティブプロンプト
Stable Diffusionでよく使われるネガティブプロンプトの英単語は以下のとおりです。
- poorly:「poorly」は「下手に」「不十分に」という意味で、画像の品質が低いことを示します。例えば、「poorly drawn face」は「下手に描かれた顔」という意味で、AIに顔の表現を改善させることができます。
- blurry:「blurry」は「ぼやけた」「不鮮明な」という意味で、画像の解像度が低いことを示します。例えば、「blurry background」は「ぼやけた背景」という意味で、AIに背景の細部を描き込ませることができます。
- distorted:「distorted」は「歪んだ」「変形した」という意味で、画像の形や比率が正しくないことを示します。例えば、「distorted body」は「歪んだ体」という意味で、AIに体のバランスや姿勢を修正させることができます。
- inappropriate:「inappropriate」は「不適切な」「不相応な」という意味で、画像の内容や雰囲気が望ましくないことを示します。例えば、「inappropriate clothing」は「不適切な服装」という意味で、AIに服装のスタイルや色を変更させることができます。
- unwanted:「unwanted」は「望ましくない」「必要ない」という意味で、画像に余分な要素があることを示します。例えば、「unwanted text」は「望ましくないテキスト」という意味で、AIにテキストを削除させることができます。
- noisy:「noisy」は「ノイズの多い」「粗い」という意味で、画像に不自然な点や線があることを示します。例えば、「noisy hair」は「ノイズの多い髪」という意味で、AIに髪の質感や流れを滑らかにさせることができます。
- flat:「flat」は「平らな」「立体感のない」という意味で、画像に陰影や深度がないことを示します。例えば、「flat face」は「平らな顔」という意味で、AIに顔の輪郭や表情を強調させることができます。
- wrong:「wrong」は「間違った」「正しくない」という意味で、画像に誤った要素があることを示します。例えば、「wrong color」は「間違った色」という意味で、AIに色の調整や変更をさせることができます。
- missing:「missing」は「欠けている」「不足している」という意味で、画像に必要な要素がないことを示します。例えば、「missing eye」は「欠けている目」という意味で、AIに目の描画を補完させることができます。
- low quality:「low quality」は「低品質な」「劣化した」という意味で、画像の全体的なクオリティが低いことを示します。例えば、「low quality image」は「低品質な画像」という意味で、AIに画像の向上や再生成をさせることができます。
以上がStable Diffusionでよく使われるネガティブプロンプトの英単語の一例です。ネガティブプロンプトは、自分の好みや目的に合わせてカスタマイズすることができます。ネガティブプロンプトの効果を確認するためには、生成した画像を比較するとよいでしょう。ネガティブプロンプトを使うことで、AI画像の生成における自由度や表現力を高めることができます。ぜひ試してみてください。
Stable Diffusionの呪文で使える光を表現する英単語
光を表現する英単語はたくさんありますが、Stable Diffusionの呪文で使えるものをいくつか紹介します。
- light: 光そのものを表す一般的な単語です。例えば、a bright lightやa dim lightなどで明るさや暗さを表現できます。
- glow: 光が発する柔らかい輝きや色を表す単語です。例えば、a glowing moonやa glowing fireflyなどで月やホタルの光を表現できます。
- shine: 光が反射する鋭い輝きや光沢を表す単語です。例えば、a shining starやa shining metalなどで星や金属の光を表現できます。
- sparkle: 光が小さくきらめく様子を表す単語です。例えば、sparkling waterやsparkling jewelsなどで水や宝石の光を表現できます。
- flash: 光が一瞬強く照らす様子を表す単語です。例えば、a flash of lightningやa flash of cameraなどで雷やカメラの光を表現できます。
- beam: 光が直線的に伸びる様子を表す単語です。例えば、a beam of sunlightやa beam of laserなどで太陽光やレーザーの光を表現できます。
- ray: 光が細く放射する様子を表す単語です。例えば、a ray of hopeやa ray of lightなどで希望や光明を表現できます。
- flare: 光が突然強くなったり弱くなったりする様子を表す単語です。例えば、a flare of fireやa flare of emotionなどで火や感情の変化を表現できます。
- radiate: 光が中心から周囲に広がる様子を表す単語です。例えば、radiating heatやradiating beautyなどで熱や美しさの拡散を表現できます。
- illuminate: 光が物事を照らして明るくする様子を表す単語です。例えば、illuminating the roomやilluminating the truthなどで部屋や真実の明らかになることを表現できます。
以上がStable Diffusionの呪文で光を表現する英単語の一部です。他にも色々な単語がありますので、試行錯誤しながら自分のイメージに合った呪文を作ってみてください。
vast.ai紹介
vast.aiは、GPUを中心とした高性能な計算リソースを安くレンタルできるクラウドコンピューティングプラットフォームです。vast.aiでは、個人やデータセンターが所有する余剰な計算能力をマーケットプレイスで貸し出すことができます。vast.aiの特徴は以下の通りです。
- 安い:他のクラウドサービスよりも低価格でGPUを利用できます。価格はホスト側が設定するので、競争によって最安値付近になりやすいです。
- 柔軟:sshでrootログインして、任意のタスクを実行できます。dockerイメージも自由に選択できます。また、Jupyterやweb UIなどの便利なツールもテンプレートからすぐに使えます。
- 信頼性:インスタンスごとにReliabilityという数値があり、実際の稼働状況に応じて算出されています。Reliabilityでフィルタすることで、信頼性の高いインスタンスを選ぶことができます。
- セキュリティ:他人の環境を使う以上、自分のデータが盗聴されないかという懸念があります。vast.aiでは、貸す側はデータを盗むよりも評判を維持するインセンティブの方が大きいとしていますが、ディスク暗号化などのセキュリティ対策は明記されていません。vast.aiを使う場合は、漏れてもよいデータだけを扱うべきです。
vast.aiは、GPUを必要とする計算集約的なワークロードに対して、コストと摩擦を低減し、大規模なGPU流動性を簡単に活用できるようにするプラットフォームです。vast.aiの詳細については、公式サイトやドキュメントをご覧ください。