Modely úrovně S: GLM a Hermes 👀👀🔥🥰
Před 3 měsíci jsem si uvědomil, že jsem beznadějně závislý na korporacích, které se starají pouze o moc, peníze a kontrolu.
V tomto okamžiku Cursor, Claude, OpenAI, všichni měli své neomezené plány.
Chtěl jsem Mac M3 Ultra s 512 GB RAM. Ahmad a Pewdiepie mě přesvědčili o opaku.
Zde je to, co jsem se naučil při vytváření vlastního AI Rigu
-----------------------------
Sestavení (3 tisíce $ - 10 tisíc $)
Jedná se o špičkový výkon, který můžete získat pod 10 tisíc USD
• 4x RTX 3090s s 2x NVLink
• Procesor Epyc se 128 PCIe linkami
• 256-512GB DDR4 RAM
• Základní deska Romed8-2T
• Vlastní chlazení stojanu + ventilátoru
• Napájecí zdroj AX1600i + kvalitní stoupačky
Cena: 5 tisíc dolarů v USA, 8 tisíc dolarů v EU (díky DPH)
Kontrola výkonu v realitě
Více 3090 = větší modely, ale klesající výnosy se rychle dostavují.
Další krok: 8-12 GPU pro AWQ 4-bit nebo BF16 Mix GLM 4.5-4.6
V tuto chvíli jste však narazili na limity spotřebitelského hardwaru.
----------------------------------------
Modely, které fungují:
S-Tier modely (zlatý standard)
• GLM-4.5-Air: Odpovídá Sonetu 4.0, kódy to bezchybně dostaly na stabilních 50 tps a 4k/s předplnění s vLLM
Hermes-70B: Řekne vám cokoli bez útěku z vězení
Tažní koně A-Tier
• Linka Qwen
• Řada Mistral
• GPT-OSS
Možnosti B-úrovně
• Řada Gemma
• Lamá linie
------------------------------------
Softwarový balíček, který skutečně funguje
Pro kódování/agenty:
• Router Claude Code + (GLM-4.5-Air běží perfektně)
• Roocode Orchestrator: Definujte režimy (kódování, zabezpečení, recenzent, výzkumník)
Orchestrátor spravuje rozsah, roztočí místní LLM s fragmentovaným kontextem a poté syntetizuje výsledky. Můžete použít GPT-5 nebo Opus/GLM-4.6 jako orchestrátor a místní modely jako vše ostatní!
Možnosti lešení (hodnocení)
1. vLLM: Špičkový výkon + použitelnost, bleskově rychlá, pokud model sedí
2. exllamav3: Mnohem rychlejší, všechny kvantové velikosti, ale špatná kostra
3. llama.cpp: Snadný start, dobré počáteční rychlosti, degradace v kontextu
Doporučení uživatelského rozhraní
• lmstudio: Uzamčeno na llama.cpp ale skvělé UX
• 3 Sparks: Aplikace Apple pro místní LLM
• JanAI: Fajn, ale s omezenými funkcemi
-------------------------------
Sečteno a podtrženo
Mac Ultra M3 vám poskytne 60–80% výkon s přístupem MLX. Pokud ale chcete to absolutně nejlepší, potřebujete Nvidii.
Tato cesta mě naučila, že skutečná nezávislost pochází z pochopení a vytváření vlastních nástrojů.
Pokud vás zajímají benchmarky, hodně jsem jich zveřejnil na svém profilu


7,91 tis.
70
Obsah na této stránce poskytují třetí strany. Není-li uvedeno jinak, společnost OKX není autorem těchto informací a nenárokuje si u těchto materiálů žádná autorská práva. Obsah je poskytován pouze pro informativní účely a nevyjadřuje názory společnosti OKX. Nejedná se o doporučení jakéhokoli druhu a nemělo by být považováno za investiční poradenství ani nabádání k nákupu nebo prodeji digitálních aktiv. Tam, kde se k poskytování souhrnů a dalších informací používá generativní AI, může být vygenerovaný obsah nepřesný nebo nekonzistentní. Další podrobnosti a informace naleznete v připojeném článku. Společnost OKX neodpovídá za obsah, jehož hostitelem jsou externí weby. Držená digitální aktiva, včetně stablecoinů a tokenů NFT, zahrnují vysokou míru rizika a mohou značně kolísat. Měli byste pečlivě zvážit, zde je pro vás obchodování s digitálními aktivy nebo jejich držení vhodné z hlediska vaší finanční situace.