Odysseus v1.0

2026-06-17 02:05:22 -04:00 · 2026-05-31 23:58:26 +09:00
commit e5c99a5eee
421 changed files with 271349 additions and 0 deletions
@@ -0,0 +1,374 @@
+"""Image generation model registry and VRAM fitting for Cookbook."""
+
+# Curated registry of image generation models supported by diffusers.
+# ONLY verified HuggingFace repo IDs.
+# VRAM estimates are for inference (single image generation).
+IMAGE_MODEL_REGISTRY = [
+    # ── Z-Image (Alibaba Tongyi) ──
+    {
+        "id": "Tongyi-MAI/Z-Image-Turbo",
+        "name": "Z-Image Turbo",
+        "provider": "Tongyi",
+        "params_b": 6.0,
+        "vram_bf16": 19.0,
+        "vram_fp8": 10.0,
+        "vram_q4": 6.0,
+        "default_quant": "BF16",
+        "quant_repos": {
+            "FP8": "drbaph/Z-Image-Turbo-FP8",
+        },
+        "capabilities": ["text-to-image"],
+        "description": "6B distilled, 8-step. Sub-second on H800. Apache 2.0.",
+        "quality": 92,
+        "speed": 95,
+        "released": "2025-12",
+    },
+    {
+        "id": "Tongyi-MAI/Z-Image",
+        "name": "Z-Image",
+        "provider": "Tongyi",
+        "params_b": 6.0,
+        "vram_bf16": 19.0,
+        "vram_fp8": 10.0,
+        "vram_q4": 6.0,
+        "default_quant": "BF16",
+        "quant_repos": {
+            "FP8": "drbaph/Z-Image-fp8",
+        },
+        "capabilities": ["text-to-image"],
+        "description": "Full undistilled model. Highest creative freedom. Apache 2.0.",
+        "quality": 93,
+        "speed": 70,
+        "released": "2025-12",
+    },
+    # ── Qwen Image ──
+    {
+        "id": "Qwen/Qwen-Image-2512",
+        "name": "Qwen Image 2512",
+        "provider": "Qwen",
+        "params_b": 20.0,
+        "vram_bf16": 42.0,
+        "vram_fp8": 22.0,
+        "vram_q4": 14.0,
+        "default_quant": "FP8",
+        "quant_repos": {},
+        "capabilities": ["text-to-image", "text-rendering"],
+        "description": "Dec 2025 update. Better humans, finer detail, strong text. Apache 2.0.",
+        "quality": 95,
+        "speed": 50,
+        "released": "2025-12",
+    },
+    {
+        "id": "Qwen/Qwen-Image",
+        "name": "Qwen Image",
+        "provider": "Qwen",
+        "params_b": 20.0,
+        "vram_bf16": 42.0,
+        "vram_fp8": 22.0,
+        "vram_q4": 14.0,
+        "default_quant": "FP8",
+        "quant_repos": {},
+        "capabilities": ["text-to-image", "text-rendering"],
+        "description": "20B foundation. Best text rendering in images. Apache 2.0.",
+        "quality": 94,
+        "speed": 50,
+        "released": "2025-08",
+    },
+    {
+        "id": "Qwen/Qwen-Image-Edit-2511",
+        "name": "Qwen Image Edit",
+        "provider": "Qwen",
+        "params_b": 20.0,
+        "vram_bf16": 42.0,
+        "vram_fp8": 22.0,
+        "vram_q4": 14.0,
+        "default_quant": "FP8",
+        "quant_repos": {},
+        "capabilities": ["image-editing", "inpainting"],
+        "description": "Dedicated editing. Style transfer, object removal. Apache 2.0.",
+        "quality": 92,
+        "speed": 50,
+        "released": "2025-11",
+    },
+    # ── Stable Diffusion (dedicated inpainting) ──
+    {
+        "id": "diffusers/stable-diffusion-xl-1.0-inpainting-0.1",
+        "name": "SDXL Inpainting",
+        "provider": "Stability AI",
+        "params_b": 3.5,
+        "vram_bf16": 12.0,
+        "vram_fp8": 8.0,
+        "vram_q4": 6.0,
+        "default_quant": "BF16",
+        "quant_repos": {},
+        "capabilities": ["inpainting", "image-editing"],
+        "description": "SDXL fine-tuned for inpainting (9-channel UNet). Best SD-family fill quality; fits a 24GB card comfortably.",
+        "quality": 86,
+        "speed": 68,
+        "released": "2023-11",
+    },
+    {
+        "id": "stable-diffusion-v1-5/stable-diffusion-inpainting",
+        "name": "SD 1.5 Inpainting",
+        "provider": "Stability AI",
+        "params_b": 1.1,
+        "vram_bf16": 4.0,
+        "vram_fp8": 3.0,
+        "vram_q4": 2.5,
+        "default_quant": "BF16",
+        "quant_repos": {},
+        "capabilities": ["inpainting"],
+        "description": "Classic SD 1.5 inpaint. Very light and fast; lower fidelity than SDXL.",
+        "quality": 70,
+        "speed": 92,
+        "released": "2022-10",
+    },
+    # ── FLUX ──
+    {
+        "id": "black-forest-labs/FLUX.1-dev",
+        "name": "FLUX.1 Dev",
+        "provider": "Black Forest Labs",
+        "params_b": 12.0,
+        "vram_bf16": 33.0,
+        "vram_fp8": 17.0,
+        "vram_q4": 10.0,
+        "default_quant": "FP8",
+        "quant_repos": {
+            "FP8": "diffusers/FLUX.1-dev-torchao-fp8",
+        },
+        "capabilities": ["text-to-image"],
+        "description": "High quality, detailed. Popular community model. Non-commercial.",
+        "quality": 92,
+        "speed": 55,
+        "released": "2024-08",
+    },
+    {
+        "id": "black-forest-labs/FLUX.1-schnell",
+        "name": "FLUX.1 Schnell",
+        "provider": "Black Forest Labs",
+        "params_b": 12.0,
+        "vram_bf16": 33.0,
+        "vram_fp8": 17.0,
+        "vram_q4": 10.0,
+        "default_quant": "FP8",
+        "quant_repos": {
+            "FP8": "Kijai/flux-fp8",
+        },
+        "capabilities": ["text-to-image"],
+        "description": "Fast 4-step variant. Apache 2.0 license.",
+        "quality": 85,
+        "speed": 90,
+        "released": "2024-08",
+    },
+    # ── Stable Diffusion ──
+    {
+        "id": "stabilityai/stable-diffusion-3.5-medium",
+        "name": "SD 3.5 Medium",
+        "provider": "Stability AI",
+        "params_b": 2.5,
+        "vram_bf16": 12.0,
+        "vram_fp8": 7.0,
+        "vram_q4": None,
+        "default_quant": "BF16",
+        "quant_repos": {
+            "FP8": "Comfy-Org/stable-diffusion-3.5-fp8",
+        },
+        "capabilities": ["text-to-image"],
+        "description": "2.5B lightweight, fast. Fits almost any GPU.",
+        "quality": 75,
+        "speed": 95,
+        "released": "2024-10",
+    },
+    {
+        "id": "stabilityai/stable-diffusion-3.5-large",
+        "name": "SD 3.5 Large",
+        "provider": "Stability AI",
+        "params_b": 8.1,
+        "vram_bf16": 22.0,
+        "vram_fp8": 12.0,
+        "vram_q4": None,
+        "default_quant": "BF16",
+        "quant_repos": {
+            "FP8": "Comfy-Org/stable-diffusion-3.5-fp8",
+        },
+        "capabilities": ["text-to-image"],
+        "description": "8B high quality. Good balance of speed and quality.",
+        "quality": 85,
+        "speed": 70,
+        "released": "2024-10",
+    },
+    {
+        "id": "stabilityai/stable-diffusion-3.5-large-turbo",
+        "name": "SD 3.5 Large Turbo",
+        "provider": "Stability AI",
+        "params_b": 8.1,
+        "vram_bf16": 22.0,
+        "vram_fp8": 12.0,
+        "vram_q4": None,
+        "default_quant": "BF16",
+        "quant_repos": {
+            "FP8": "Comfy-Org/stable-diffusion-3.5-fp8",
+        },
+        "capabilities": ["text-to-image"],
+        "description": "Distilled for few-step inference. Fastest large SD.",
+        "quality": 80,
+        "speed": 92,
+        "released": "2024-10",
+    },
+    {
+        "id": "stabilityai/stable-diffusion-xl-base-1.0",
+        "name": "SDXL",
+        "provider": "Stability AI",
+        "params_b": 3.5,
+        "vram_bf16": 10.0,
+        "vram_fp8": 6.0,
+        "vram_q4": None,
+        "default_quant": "BF16",
+        "quant_repos": {},
+        "capabilities": ["text-to-image"],
+        "description": "Classic workhorse. Huge LoRA ecosystem. Fits 8GB+.",
+        "quality": 72,
+        "speed": 90,
+        "released": "2023-07",
+    },
+    # ── Hunyuan ──
+    {
+        "id": "tencent/HunyuanImage-3.0",
+        "name": "HunyuanImage 3.0",
+        "provider": "Tencent",
+        "params_b": 13.0,
+        "vram_bf16": 30.0,
+        "vram_fp8": 16.0,
+        "vram_q4": 9.0,
+        "default_quant": "FP8",
+        "quant_repos": {
+            "Q4": "wikeeyang/Hunyuan-Image-30-Qint4",
+            "NF4": "EricRollei/HunyuanImage-3.0-Instruct-NF4",
+        },
+        "capabilities": ["text-to-image", "text-rendering"],
+        "description": "Strong text rendering. Bilingual Chinese/English. 13B activated per token.",
+        "quality": 88,
+        "speed": 60,
+        "released": "2025-09",
+    },
+    {
+        "id": "tencent/HunyuanImage-3.0-Instruct-Distil",
+        "name": "HunyuanImage 3.0 Distil",
+        "provider": "Tencent",
+        "params_b": 13.0,
+        "vram_bf16": 30.0,
+        "vram_fp8": 16.0,
+        "vram_q4": 9.0,
+        "default_quant": "FP8",
+        "quant_repos": {},
+        "capabilities": ["text-to-image", "text-rendering"],
+        "description": "Distilled variant, fewer steps. Faster with comparable quality.",
+        "quality": 85,
+        "speed": 80,
+        "released": "2026-01",
+    },
+]
+
+
+def get_image_models():
+    """Return the image model registry."""
+    return IMAGE_MODEL_REGISTRY
+
+
+def rank_image_models(system, search=None, sort="fit"):
+    """Score and rank image models against detected hardware.
+
+    Returns list of models with fit info (vram needed, fits, recommended quant).
+    """
+    gpu_vram = system.get("gpu_vram_gb", 0) or 0
+    has_gpu = system.get("has_gpu", False)
+    results = []
+
+    for model in IMAGE_MODEL_REGISTRY:
+        # Filter by search
+        if search:
+            s = search.lower()
+            if s not in model["name"].lower() and s not in model["id"].lower() and s not in model.get("description", "").lower():
+                continue
+
+        # Determine best quant that fits
+        quant = None
+        vram_needed = None
+        fits = False
+        quant_repo = None
+
+        if has_gpu and gpu_vram > 0:
+            # Try BF16 first, then FP8, then Q4
+            for q, vram_key in [("BF16", "vram_bf16"), ("FP8", "vram_fp8"), ("Q4", "vram_q4")]:
+                v = model.get(vram_key)
+                if v is not None and v <= gpu_vram * 0.90:  # 10% headroom
+                    quant = q
+                    vram_needed = v
+                    fits = True
+                    quant_repo = model.get("quant_repos", {}).get(q)
+                    break
+            # If nothing fits, show what it needs
+            if not fits:
+                quant = model["default_quant"]
+                vram_needed = model.get("vram_bf16", 0)
+
+        # Fit label
+        if not has_gpu:
+            fit = "no_gpu"
+            fit_label = "No GPU"
+        elif fits:
+            headroom = gpu_vram - vram_needed
+            if headroom > gpu_vram * 0.3:
+                fit = "perfect"
+                fit_label = "Perfect"
+            elif headroom > gpu_vram * 0.1:
+                fit = "good"
+                fit_label = "Good"
+            else:
+                fit = "tight"
+                fit_label = "Tight"
+        else:
+            fit = "no_fit"
+            fit_label = "Too large"
+
+        # Score: quality * speed * fit bonus
+        score = model["quality"] * 0.6 + model["speed"] * 0.2
+        if fit == "perfect":
+            score += 20
+        elif fit == "good":
+            score += 10
+        elif fit == "tight":
+            score += 5
+        elif fit == "no_fit":
+            score -= 30
+
+        results.append({
+            "id": model["id"],
+            "name": model["name"],
+            "provider": model["provider"],
+            "params_b": model["params_b"],
+            "vram_needed": vram_needed,
+            "quant": quant,
+            "quant_repo": quant_repo,
+            "fits": fits,
+            "fit": fit,
+            "fit_label": fit_label,
+            "quality": model["quality"],
+            "speed": model["speed"],
+            "score": round(score, 1),
+            "capabilities": model["capabilities"],
+            "description": model["description"],
+            "released": model.get("released", ""),
+        })
+
+    # Sort
+    if sort == "quality":
+        results.sort(key=lambda x: (-x["quality"], -x["score"]))
+    elif sort == "speed":
+        results.sort(key=lambda x: (-x["speed"], -x["score"]))
+    elif sort == "vram":
+        results.sort(key=lambda x: (x["vram_needed"] or 999, -x["score"]))
+    else:  # fit (default)
+        results.sort(key=lambda x: (-x["score"],))
+
+    return results