安定拡散で生成された葉肌の女性と未来都市の画像

Stable Diffusion によって作成された画像は素晴らしいですが、そのオープン ソースが心配です

ペドロ・スパドーニのアバター
Stable Diffusion は DALL-E のような AI イメージャーですが、決定的な違いが XNUMX つあります。それは、すでに一般公開されていることです。

人工知能 (AI) を使用する画像ジェネレーターの話は、別の章になりました (いくつかの脚注があります)。 安定拡散. これは、テキスト コマンドを使用して奇妙なシーンを作成できることで今年ソーシャル メディアで有名になった DALL-E のようなものですが、XNUMX つの重要な違いを除いては、既に公開されており、オープン ソースであることです。

これらの XNUMX つのポイントは、Stable Diffusion の可能性と相まって、壮観な (さらに重要なことに、信頼できる) 画像を生成することで、Web 上で議論や懸念が生じています。 ツールの創造的な可能性と民主的なリーチに興奮している人もいます。 一方で、下心を気にして使う方もいます。 また、ジェネレーターが芸術的なスタイルをほぼ完全に模倣していることに腹を立てている人もいます (まだ生きている人も含まれます)。

実際、Stable Diffusion は、クリエイティブなツールの波に乗っています。 深い学習 OpenAI から DALL-E 2 などの他のツールとともにビジュアル メディアを作成する (ディープ ラーニング、無料の翻訳)。 途中; そしてGoogleのImagen。 そして、それは最近リリースされたので、その宇宙にはまだその無法な地球のエネルギーがあります。

安定拡散とは?

未来都市の安定拡散によるイメージ
テキスト コマンドと参照画像を使用して、Stable Diffusion はシュールな風景を作成します。

AIを利用した画像ジェネレーターです。 これがあれば、コンピューターと比較的優れたグラフィックス カード (現時点では Nvidia カードでのみ動作します) を持っている人なら誰でも、想像できるほぼすべてのデジタル ペインティングを作成できます。 ゴッホが描いたビヨンセの肖像画? それが可能だ。 都市の眺め サイバーパンク 18世紀の日本の芸術家北斎のスタイルで? それはできます。

はい、このツールは、有名な漫画家から 19 世紀のダゲレオタイピストまで、ほぼすべてのビジュアル スタイルを模倣できます (これは実際に存在しました。Google で確認できます)。 また、ツールで需要を構成するときに、参照用に説明的なフレーズや画像を含めることもできます。

安定した拡散は エマド・モスク、オープンソース AI プロジェクトの作成を使命とするスタートアップ Stability AI の創設者兼 CEO。 新しいツールが 40 月末に公開されたのは、この口実のもとでした。 しかし、XNUMX 歳を目前に控えたこのビジネスマンにとって、これは初めての冒険ではありません。

2019 年、バングラデシュ出身で現在はイギリス在住の Mostaque 氏が Symmitree を設立しました。 これの目的 スタートアップは、彼がオックスフォード大学を卒業してから 14 年後に作成され、貧困層の人々のテクノロジーのコストを削減することを目的としていました。 美しいプロジェクトでしたが、うまくいきませんでしたが、作成の翌年に中止されました。 そして、2020 年末に Stability AI が登場しました。

AI でイメージャーを使用する方法

Stable Diffusion のデモ版を無料で試すことができます。 ブラウザで動作します のようなページにアクセスすることさえ ハギンフェイス (パートナー企業 スタートアップ ツール開発中)、 ドリームスタジオ (Stability AI がツール用に作成した商用ページ)および Google コラボ. ただし、それらはすべて英語であり、直感的なインターフェイスではありません. ツールが素敵な画像を生成するまでには時間がかかるため、辛抱強く待つ必要があります。 DreamStudio ページでは、ツールをダウンロードしてインストールすることもできます。

AI 画像ジェネレーターの使用方法に関しては、音楽プロデューサーやビジュアル アーティストが XNUMX つの画像を組み立てる際にさまざまなツールを選択するのと同様に、それを楽器のように操作するという考えを支持する人もいます。 ビート または絵を描く。

最近では複数の AI イメージャーがあり、それぞれに長所と短所があります。 それらを組み合わせて何かを作ってみませんか? それが、カレン・チェン監督がやろうとしたことです。 彼女は、AI を使用して衣服を生成し、それらをビデオに重ねるというアイデアを思いつき、Twitter のスレッドでプロセス全体を共有しました (この場合、彼女は DALL-E と EbSynth を使用しました)。

オープンソースとその他の問題

有名人の顔を使った安定拡散画像
Stable Diffusion でディープフェイクを作成する可能性がコミュニティに警告されました (画像: Reproduction/Ars Technica)

さて、これまでのところ、創造的なプロジェクトにおける Stable Diffusion (およびそのようなジェネレーター) の可能性を見てきました。 しかし、世界は XNUMX つの大きなディズニーランドではありません。 はるかに少ないインターネット。 そのため、このような強力なツールをオープンでほとんど制限のない方法でリリースする Stability AI の姿勢のとげのある側面を指摘する必要があります。

このツールが一般に公開されたことで、文化的および経済的影響に関連する懸念から、多くの人が警戒状態に置かれました。 ただ、Dall-e とは異なり、Stable Diffusion データベースは誰でも利用でき、多くの制限なしに微調整して使用できます。

実際には、これは、Stable Diffusion を使用して、たとえば Dall-e で OpenAI がバーを形成する画像を生成できることを意味します。 これらの種類の画像の中には、暴力的なシーン、ポルノ、企業および著作権を侵害する可能性のあるシーン、 ディープフェイク 有名人の紹介、偽情報やフェイク ニュースの素材の作成。

ツールの「公式バージョン」には、ヌードなどを禁止するフィルターがあります。 ただし、オープンソースであるため、これらの障壁は回避できます。 そして、Stable Diffusion がそれを使いたい人のためにそこにあることを考えると、下心でその使用を制御 (および停止) することは基本的に不可能です。 これについて、Stability AI の CEO は次のように述べています。

私たちは個人の責任を信じています。 損害を軽減するための使用ポリシーとツールが含まれています。

Art Technica の Web サイトでのインタビューで、スタートアップ Stability AI の創設者兼 CEO である Emad Mostaque 氏

混乱を引き起こしたもう XNUMX つの前線は、アーティストのスタイルを模倣する Stable Diffusion の能力です。 要点は、会社が許可を求めたり、いかなる種類の同意も求めたりせずに、ツールにアーティストの作品を「供給」したことです。 これにより、多くの倫理および著作権の問題が発生しました。

会社の次のステップ

いずれにせよ、Stable Diffusion の成功は、リリースから 100 か月も経っていないにもかかわらず、市場での Stability AI の評価をすでに押し上げています。 同社は、523 億米ドル (現在の見積もりでは 500 億 2,6 万レアル) のリソースを調達するために、投資家とのミーティングも行いました。 Forbes の情報筋によると、投資会社はスタートアップの価値を XNUMX 億ドル (XNUMX 億レアル) に引き上げる契約を結ぶことに関心を示していたでしょう。

同社のCEOは、最近のインタビューで次のように述べています。 機械学習 YouTuber の Yannic Kilcher は、「主要な政府や機関」とのパートナーシップを目標にしています。

Mostaque はソーシャル ネットワークで、Stability AI が Stable Diffusion を「トレーニング」するために 600 万ドル (3,1 万レアル) を投資したことも共有しました。 これまでのところ、投資は報われています。

以下も参照してください。

画像を作成するAI「DALL-E」の公開テストが公開 e DALL-Eは今、芸術作品の境界を越えて何を想像するか

Fontesは: Ars Technicaの, ハッカディ, スタビリティAI, TechCrunchの, フォーブス e DevOps


Showmetech について詳しく知る

最新ニュースを電子メールで受け取るには登録してください。

関連する投稿