最後更新日期 2024-02-24 ,由 support 進行編輯。

最後更新日期 2024-02-24 ,由 support 進行編輯。

這篇文章是「新手操作指南」的第一部分

目前 Stable Diffusion 還是只能使用英文來操作,所以文章中所有的提示詞,都是以英文為主。

AI 人工智慧的 Stable Diffusion

Stable Diffusion 是一套使用「潛在擴散模型」(latent diffusion model, LDM) 模型技術來生成影像畫面的一套軟體。這些影像可以是逼真的,就像相機拍攝的影像一樣;也可以是藝術風格,就像由藝術家所繪製的一樣。

要如何使用 Stable Diffusion ? 你需要一個(一些)描述影像的提示或是元素。例如:

巧克力蛋糕, 特寫, 透視, 草莓
chocolate cake, close up, perspective, strawberry

就會產生像是這樣的一個畫面

 

在操作這套軟體的時候,這一個個的提示詞就稱為 prompt

類似這樣利用文字描述來產生影像畫面的軟體還有很多種,像是 DALL-E 2Midjourney。那為什麼我要用 Stable Diffusion? 我個人覺得有兩個最大的優點:

  • 開源:有許多使用者都製作了免費與效能強大的工具,來添加很多新功能。
  • 這套軟體的設計就是給一般電腦來使用的。不需要用到大型電腦就可以免費運行的一套軟體。(當然,電腦也不能太差)

如何開始使用 Stable Diffusion ?

使用線上服務 On-line service

對於想要嚐鮮的新朋友,可以考慮使用一些網路上免費的產生器服務。馬上開始玩耍,無須考慮一些設定相關的麻煩事情。

線上遊樂場 Playground

把軟體安裝在自己的電腦

如果你的電腦有不錯的顯示卡以及不小的記憶體,可以考慮在自己的電腦上安裝相對應的軟體,也是不錯的選擇。

  • DiffusionBee 一套 Mac 專用的軟體,免費、開源、間單好操作
  • Stable Diffusion Webui 支援 Mac, Windows, Linux等作業系統,同樣是開源免費的好軟體

Stable Diffusion Demo 動手玩

了解 Stable Diffusion 最好的方式就是自己動手做!!
只要四個簡單的步驟:

  1. 閉上眼睛。
  2. 想像一個你想要產生的畫面。
  3. 盡可能地使用文字來描述這個影像。(請盡量涵蓋主題與背景,並使用大量的描述詞彙,這樣得到的畫面會更優)
  4. 把它寫在下面的提示欄位中。


下面是幾個範例:

兩隻科基在海灘奔跑
Two Corgis are running on the beach.

 

 

兩隻科基在海灘玩耍
Two Corgis are playing on the beach.

 

機器人, 梵谷風格
Robot, Van Gogh’s style

 

使用梵谷的畫法,畫出貓耳的女機器人
Using Van Gogh painting style to draw Cat-eared robot

 

 

你也可以使用同樣的描述,切換到不同的模型,再次產生新的畫面,你會發現選擇不同的模型,最後結果會相差非常多。文章的最後會提到 Model 模型

這裡列出三種 Model 模型風格,方便新手使用

  • Stable Diffusion v1.5: 官方的基礎模型,適用於所有畫風。
  • Realistic Vision v2.0: 產生照片風格的畫面,有獨特的地方。
  • Anything v3.0: 動漫風格。

Model 模型,有時稱為檢查點檔案 checkpoint files,是 Stable Diffusion 預先訓練 (pre-trained )的權重(比重, weights),目的是在生成一般或是特定形象的畫面。

模型可以生成什麼影像取決於用於訓練它們的資料。 舉個極端的例子,如果訓練資料中故意沒有狗的資料,最終模型可以生成牛、羊、馬…等畫面,但是無法生成狗的影像。 同樣,如果您只訓練帶有貓影像的模型,它只會生成貓不會生成狗、牛、馬…這些東西。

 

構建一個好的提示

從上面的練習,可以知道不同描述主題的方式會產生不同的描述元素,也會導致結果完全不同。對於初學者來說,學習一套強大的關鍵詞及其預期效果至關重要。

針對提示,我提供兩個建議:

  • 具體且詳細
  • 對的關鍵字

具體且詳細

雖然我們把 AI 稱為人工智慧,但是它還是不夠聰明,不能夠了解你的思維邏輯,因此你要盡可能的詳細描述你想要形象!
舉個例子來說,在你腦海中想像有一個畫面,有個女人站在街道上。一個簡單的提示:

一個女人在街上
A woman on the street.

有可能它是這樣的結果:

 

如果這個畫面不符合你的預期,那麼你不能責怪 Stable Diffusion,要怪的是你自己。所以,相反的你應該多寫一些:

 25 歲的亞洲女孩,頭髮上有亮點,微笑,穿著辦公室套裝,坐在外面,熱鬧的夜間城市街景,邊緣照明效果
25 years-old sexy asian girl, highlights in hair, smile, Wearing an office suit, sitting outside, lively night city street scene, rim lighting

 

看到差異了吧!!!盡快提升你使用提示技能是當務之急。

使用 Keyword 關鍵字

有些關鍵字比提示還強大,這些關鍵字可能是:

  • 專業術語:攝影、繪圖所用的專業術語,像是 close up 特寫、rim lighting 輪廓光、Back lighting 背光逆光…等等.
  • 藝術家的名字:梵谷、草間彌生
  • 媒介:照片、插畫、版畫、繪畫或油畫這些關鍵字表示的意思都不同
  • 名人名字:川普、金日正、草薙素子、綾波零、愛瑪 梅耶斯

只要這些關鍵字用得好,影像就會朝著你要的方向前進。

一次產生一張圖片?

測試一些全新的提示的時候,我會一次產生三、四個畫面來參考,加快搜尋的速度。在進行小地方修改時,我會一次產生四個畫面,來增加看到可用的東西的機會。

簡單說:不要只根據一個畫面的結果,就把提示詞改掉。

負面提示詞 Negative prompt

你把你想要出現的東西放在提示詞欄位裡面;把你不想看到的東西放在負面提示詞中。聽起來沒錯,但不是所有採用 Stable Diffusion 服務的軟體都支援負面提示詞。有些版本是參考用;有些版本是必須要有。因此對初學者來說,使用一些「通用」型的負面提示詞並沒有壞處。

製作更大的畫面?

Stable Diffusion 原生的解析度是 512 x 512 像素。可以使用以下的尺寸大小來設定初始像素:

  • 橫幅、風景:高度設定 512 像素,寬度設定更大像是 768 像素。這樣會得到一個 2:3 的畫面。
  • 人像、垂直:寬度設定 512 像素,高度設定更大像是 768 像素。這樣會得到一個 3:2 的畫面。

如果你把解析度設得太高,你電腦非常有可能罷工,跑不出畫面。切記。

 

後續:

建構完善的提示詞

Inpatint 局部重繪

模型 Models

Leave A Comment