Fooocus – מחולל תמונות בבינה מלאכותית על גבי המחשב האישי שלכם

תרגום לא מחייב של https://stable-diffusion-art.com/fooocus

מאת: עדן אוריון eorion2@gmail.com

רוצים סרט הדרכה במקום? הנה כאן.

Fooocus הוא מחולל תמונות בבינה מלאכותית חינמי ופתוח המבוסס על Stable Diffusion. פוקוס מנסה לשלב את המיטב של Stable Diffusion ו-Midjourney: קוד פתוח, לא מקוון, לא מצונזר, בחינם וקלות שימוש.

Fooocus עשתה אופטימיזציה בכל המאפיינים של יצירת התמונה כדי לספק תמונות מעולות. מכל מנועי יצירת התמונות שבדקתי על המחשב שלי, על אותו ההכוון (פרומפט), פוקוס נתן את התוצאות הטובות ביותר!

כך שניתן להשקיע פחות זמן בכוונונים והגדרות ויותר זמן ביצירת התמונות.

מאמר זה יעסוק ב:

יתרונות וחסרונות של Fooocus
כיצד להתקין Fooocus
שימוש בסיסי
הגדרת סגנונות
העלאת קנה מידה
ציור וצביעה חוץ
שימוש בהנחיית תמונה
מי עומד מאחורי פוקוס

יתרונות וחסרונות של Fooocus

יתרונות:

קל להתקנה
קל לשימוש
מייצר תמונות באיכות גבוהה "ישר מהקופסה"

Fooocus פשטה את ההתקנה. בין לחיצה על "הורדה" ויצירת התמונה הראשונה, מספר לחיצות העכבר הדרושות מוגבל בהחלט לפחות מ-3. דרישה מינימלית לזיכרון GPU היא 4GB (Nvidia).
Fooocus פיתחה גם תכונות רבות של "fooocus-בלבד" עבור משתמשים מתקדמים כדי לקבל תוצאות מושלמות. לחץ כאן כדי לעיין בתכונות המתקדמות.

החסרונות:

לא ניתן להתאמה אישית כמו AUTOMATIC1111 או ComfyUI
הפונקציונליות אינה נרחבת כמו ממשקי GUI אחרים (אם כי מספיקה לגמרי להתחלה והרבה יותר מכך…)

כיצד להתקין Fooocus

יש צורך בכרטיס Nvidia עם 8GB של VRAM. גם הגדרות אחרות עשויות לעבוד. לרשימה מלאה של דרישות חומרה גם ממערכות לינוקס ומקינטוש ראו כאן.

התקנה על מחשב פי-סי – חלונות

יש להוריד את קובץ ה-ZIP מכאן

שמרו את קובץ ה-zip לתיקיה שאתה רוצה להתקין Fooocus

חלצו את תוכן הקובץ לתוך התיקייה שפתחתם

לחצו פעמיים על run.bat כדי להפעיל את Fooocus.

בפעם הראשונה יהיה עליכם להמתין (תלוי במהירות חיבור האינטרנט שלכם) כי נדרשת הורדה של מודלים – מדובר בכמה ג'יגות טובות….

אם אתם על מחשבי לינוקס, מעבדי AMD מקינטוש או "מחברות" קולאב של גוגל, לחצו על הקישורים הבאים בהתאם:

AMD GPU, Mac, Linux, and Colab.

בסופה של ההתקנה וגם בהפעלות הבאות (על חלונות) יפתח חלון דפדפן עם קישור דומה לזה:
127.0.0.1:7865,

אין לכם מחשב מתאים? חסר לכם כרטיס גראפי? הכל טוב. גוגל נחלצת לעזרתכם…

כנסו לעמוד של התוכנה כאן:

גללו למטה, בערך באמצע עד שתגיעו לכאן:

לחצו על Open in Colab
בהנחה שיש לכם חשבון גוגל, יפתח לכם עמוד דומה לזה

לחצו על כפתור ה"פליי" השחור – Run Cell או מקשי Ctrl+Enter במקלדת.

המתינו 2-3 דקות

אחרי כמה דקות יופיעו לכם שני קישורים למטה, (בדומה לתמונה) לחצו על הימני (זה עם ה – gradio ).

תקבלו את מסך הפתיחה

לתצוגה כהה הוסיפו:

/?__theme=dark,

כך שהקישור ייראה כך:
http://127.0.0.1:7865/?__theme=dark

זהו! אפשר להתחיל לעבוד!

כתבו בשורת ההכוון – פרומפט (השורה הצרה בתחתית המסך)
a camel, desert, moon ולחצו על כפתור Generate

פוקוס משתמש במודל ברירת מחדל, שהוא juggernautXL, שהו ממשפחת המודלים Stable Diffusion XL זהו מודל לשימוש כללי המסוגל לייצר סגנונות שונים.

הרחבה מהירה של הפרומפט

אין צורך לכתוב הנחיות ארוכות ומסובכות כמו אלו באתרי שיתוף תמונות פופולריים. Fooocus תרחיב את ההנחיה שלכם באופן אוטומטי עם מנוע הנחיה מבוסס GPT-2.

לדוגמה, ההנחיה:

camel, desert, moon

תורחב להנחיה הבאה מתחת למכסה המנוע.

a camel, desert, moon, light, intricate, elegant, sharp focus, beautiful dynamic, highly detailed, very sleek, professional fine detail, cinematic, dramatic ambient bright colors, perfect, warm color, epic composition, striking, brave, attractive, elite, best, vivid, clear, coherent, advanced, creative, cute, artistic, trendy, cool, gorgeous, awesome.

הגדרות מתקדמות

בחירה בתיבת הסימון Advanced תפרוס מימין את תפריט ההגדרות המתקדמות.

הגדרות ביצועים

בהתאם לפילוסופיית העיצוב שלה, אפילו ההגדרות המתקדמות קלות להבנה.

ביצועים.

מהירות – Speed : איזון טוב, 30 שלבי דגימה – Steps.

איכות – Quality: פי שניים שלבי דגימה.

מהירות קיצונית – Extreme speed: ייעשה שימוש ב-LCM LoRA כדי לצמצם את שלבי הדגימה.

כצפוי מההגדרות, מהירות ואיכות אינן שונות בהרבה.

ההגדרה מהירות קיצונית יוצרת תמונות באיכות נמוכה יותר. זה צפוי בגלל השימוש LCM-LoRA בקיצור: – "אין ארוחות בחינם"

יחסי גובה-רוחב

Fooocus מספקת רשימה נרחבת של גדלי תמונות לבחירתך.

ישנן סיבות רבות מדוע להשתמש בגודל תמונה ספציפי, למשל. תאימות למודל Stable Diffusion ולצורכי פרסום.

סִגְנוֹן – Style

ב- Fooocus, אין צורך להנדס הנחיה – פרומפט כדי להשיג סגנון מסוים. ניתן להשתמש בתפריט סגנון – Style כדי להגיע בקלות לאן שרוצים

יש המון סגנונות מוגדרים מראש! פירוט לגבי מה נותן כל סגנון וסגנון ניתן למצוא במדריך סגנונות SDXL.

ניתן לשלב מספר סגנונות. אבל לרבים מהם יש השפעה רק כאשר סגנונות ברירת המחדל אינם מסומנים.

שימו לב שמעבר עכבר על כל אחד של הסגנונות (והשהייה של שנייה או קצת יותר )יפתחו בפניכם תמונה קטנה שמדגימה את הסגנון:

הנחייה שלילית

ניתן גם להוסיף הנחיה שלילית. לדוגמה, הוסף "שחור-לבן" להודעה השלילית (בהגדרות > הנחיה שלילית) כדי לוודא יצירת תמונה צבעונית.

מודל

ניתן לציין מודל מחסום ו-LoRA בלשונית Model.

ניתן למצוא או לשנות את נתיב המודלים ב-config.txt בתיקיית Fooocus.
כך למשל אפשר לשייך את ספריית המודלים של ComfyUI או Automatic1111

צפייה בעבודות שעשיתם עד כה

בחלון מימין של Advanced, מופיע למטה קישור History Log.

לחצו עליו, ותקבלו עמוד נוסף בדפדפן שיציג לכם את כל התמונות שיצרתם עד עכשיו יחד עם פירוט מלא של כל המאפיינים. שימו לב ששם תוכלו לראות את הפרומפט המלא (הבסיס שלכם ומה שפוקוס הוסיף לכל תמונה.

הגדלת תמונה / וריאציות לתמונה

הגדלת תמונה ב- Fooocus:

בחרו בתיבת הסימון קלט תמונה.
תחת Upscale או Variation, בחרו באפשרות הרצויה פי 1.5, פי 2, פי 2 מהיר.
לחצו על Generate.

יצירת וריאציות

כמו פונקציית V1/V2/V3/V4 של Midjourney, ניתן ליצור גרסאות של תמונה.

בחרו בתיבת הסימון קלט תמונה. העלו תמונה לבחרתכם
תחת Upscale או Variation, בחר באפשרות Variy הרצויה (עדין/חזק).
לחצו על Generate.

הנחייה/הכוון – Prompt מתמונה

ניתן להשתמש בתמונה כהנחיה-Prompt נוספת להנחייה הכתובה.

כדי להשתמש בהנחיית תמונה, סמנו את תיבת הסימון Input Image ובחר בכרטיסייה Image Prompt.

העלו תמונה לאחד משבצות התמונות.

סביר להניח שתרצו לסמן את תיבת הסימון מתקדם-Adcanced בתחתית העמוד כדי לאפשר עריכת הגדרות נוספות.

ImagePrompt

ברירת המחדל של האפשרות Image Prompt היא ImagePrompt.

ההגדרות אמורות להיראות לכם מוכרות אם השתמשת ב-ControlNet בכלים אחרים.

עצור-Stop At ב: עצור את בקרת ה-Image Prompt בשלבי דגימה מסוימים. 0.5 פירושו עצירה לאחר 15 צעדים עבור 30 שלבי דגימה.

משקל – Weigth: עוצמת השליטה בהנחיית תמונה.

הגדילו את אחד מהם כדי להגביר את השפעת הנחיית התמונה.

PyraCanny

PyraCanny הוא קונטרולנט Canny edge. שיטה זו מזהה קצוות באופן היררכי ברזולוציות מרובות.

השתמש ב-PyraCanny כמו Canny ControlNet כדי להעתיק קומפוזיציה או תנוחות אנושיות.

פרומפט

a woman with a cat

העלתי תמונה שלי ובחרתי PyraCanny. כיוונתי את המשקל ל-1.3

בפוטושופ – מיקומי תווי הפני כמעט זהים!!!, שימו לב למשקפיים, גם מיקומי החתולים קרובים מאוד.
שימו לב לקווי הקירות ולמקבילות שלהם ברקע!

CPDS

CPDS היא שיטת זיהוי מבנה מבוססת עומק. היא מעתיקה את הרכב התלת מימד של התמונה אך לא את הקווים. בדומה ל-Depth ControlNet, זה משנה את התמונה יותר.

ראה דוגמה של CPDS להלן. יש העתקה של הקומפוזיציה אבל לא את פרטי הפנים, והרקע מקבל יותר עומק (וטשטוש)

החלפת פנים

Face Swap הוא כמו מתאם IP Face ב-ControlNet. זה מעתיק את הפנים בתמונת ההפניה.

הנה דוגמה. הנחיה זו היא: a girl with a pearl earring (התמונה המפורסמת של יאן ורמיר המאה ה-17.

שילוב של מספר הנחיות תמונה Multiple Image Prompts

הפרומפט: a girl with a pearl earring and a cat
ונקבל

לעתים קרובות יהיה צורך להגדיר את המשקולות נמוך יותר בעת שימוש במספר הנחיות תמונה. אחרת, ייתכן שנראה חפצים כמו צבעים מוזרים.

PyraCanny עושה עבודה טובה בהעתקת התנוחה. המשקל הנמוך והעצירה משחררת את השליטה. זה עוזר ליצור רקע אחר.

FaceSwap עושה עבודה בסדר בהעתקת הפנים. ייתכן שתוכל להחיל אפקט חזק יותר על ידי הגדלת המשקל ועצירה.

ציור בתוך – Inpaint

בחרו בלשונית Inpaint or Outpaint

העלו תמונה שברצונכם לצבוע/להחליף בה תוכן.
השתמש בכלי המכחול כדי ללסמן את המקום שתרצו להחליף בו תוכן.
כתבו בשורת הפרומפט מה שתרצו לראות למשל : a woman with sunglasses
לחצו על Generate

ציור מחוץ – Outpainting

ציור חוץ מרחיב תמונה לכיוון אחד או יותר.

העלו תמונה שברצונכם להרחיב לה את התוכן.
בתפריט הנפתח Method, בחר Inpaint או Outpaint (ברירת מחדל).
בחר את כיוון המילוי הרצוי. (ימין, שמאל למעלה ולמטה)
כתבו פרומפט מתאים (לתמונה להלן כתבתי: The Milkmaid in a 17th century kitchen)

לְתַאֵר – Describe

הפונקציה Describe ב-Input Image מנחשת הנחיה של תמונה. זה דומה ללחצן Interrogate CLIP ב- AUTOMATIC1111.

העלו תמונה לקנבס של הלשונית 'Describe' ולחצו על 'תאר תמונה זו לפרומפט 'Describe this image into Prompt'.

ההנחיה המנחשת תופיע בתיבת הקלט של ההנחיה.

פוקוס מול מידג'ורני

Midjourney הוא מחולל תמונות AI פופולרי וקנייני ומסחרי – השימוש בו עולה כסף. ניתן לשכפל הרבה מהפונקציות של Midjourney עם תוכנת Fooocus העושה שימוש בטכנולוגיית הקוד הפתוח של Stable Diffusion.

Fooocus יכול להוות תחליף חינמי הולם ל- Midjourney. אם אתם אוהבים את הפשטות של MidJourney, בוודאי תתאהבו בפשטות של פוקוס. מידג'ורני מבוסס (נכון לעת כתיבת מסמך זה) על ממשק המשתמש של דיסקורד. ניתן בבירור לומר כי ממשק המשתמש של Fooocus טוב יותר.

Fooocus מנסה לספק חווית Midjourney עם היתרון הנוסף של ריצה מקומית, ללא צנזורה ובחינם. כבונוס, יש לו GUI מעוצב כהלכה!

מי עומד מאחורי פוקוס?

האיש שעומד מאחורי פוקוס עם החזון של "להתרכז בתוצאה" הוא Lvmin Zhang, ליומין זהאנג, סטודנט לתואר שלישי בפקולטה למדעי המחשב באוניברסיטת סטנפורד.
Lvmin Zhang עומד גם מאחורי אחד הפיתוחים החשובים ביותר בכל עולם ה-Stable diffusion – הקונטרול נט.
לדבריו:

ב-Fooocus מובנות המון אופטימיזציות פנימיות ושיפורי איכות. המשתמשים יכולים לשכוח את כל אותם פרמטרים טכניים קשים, ופשוט ליהנות מהאינטראקציה בין האדם למחשב כדי "לחקור מדיומים חדשים של מחשבה ולהרחיב את כוחות הדמיון של המין האנושי" [1].

[1] – כאן הוא מצטט את דיויד הולץ – מייסד מידג'ורני.

כמה מילים אישיות:

אני משתמש במחוללי תמונות בבינה מלאכותית כשנה וחצי.
נכון ליום כתיבת מסמך זה, המצב הוא כזה:
התאימות הגבוהה ביותר לפרומפט, כולל האפשרות לכתוב פרומפטים בעברית שייכת ל-DALL-E-3 ומאידך בוודאי דרך השימוש ב-BING, אין לו יכולות קונטרולנט כפי המתוארות במסמך זה.

מידג'ורני – מוציא תמונות נפלאות בדרך כלל אך ממשק המשתמש שלו נוראי בעיני, והוא גם לא חינמי.
יישומי Stable Diffusion השונים הניתנים להתקנה על גבי מחשב אישי (נדרש מחשב אישי בעל כרטיס גרפי של NVIDIA עם 8-12 ג'יגה בייט לפחות של זיכרון גראפי), ניתנים להתקנה חינם, נטולי כל צנזורה, ובחלקם הגדול מאפשרים לבצעה פעולות שנראות דמיוניות על גבי הפלטפורמות המסחריות.
כשראיתי את FOOOCUS לראשונה, איך להגיד בעדינות, לא כל כך הסתכלתי לכוון שלו. הייתי מסנוור משלל הכלים האחרים שאפשרו לי להיכנס לקרביים של המערכות לשלוט בכל המאפיינים ולאחר נסיונות רבים להוציא תמונות ראויות.
ואז התחלתי להסתכל עליו ברצינות, ודבר ראשון נדהמתי מאיכות התמונות שלו, שהיתה טובה (לדעתי) יותר מכל מחולל תמונות אחר שראיתי.
בהמשך, לאחר בדיקה מעמיקה של כל מה שאפשר לעשות אתו הבנתי שאת רוב הפעולות הנעשות על תמונות סטילס, לעתים עם חריקת שיניים בכלים האחרים, ניתן לעשות אתו בקלות רבה, ללא צורך בהתקנת תוספים מורטת עצבים.
לדעתי, התוכנה הזו מצויינת למתחילים וגם למתקדמים אשר שמים את תוצאת היצירה האיכותית בראש מעייניהם.
לימוד השימוש בתוכנה הוא הפשוט ביותר מכל מה שהכרתי, ביחס לתוצאות המתקבלות, אין ספק שזו התוכנה הטובה ביותר כיום.

ינואר 2024

עדן אוריון

אסטרונומיה, אמנות ודברים מעניינים

Fooocus – מחולל תמונות בבינה מלאכותית על גבי המחשב האישי שלכם