Krea 2: オープンウェイト12B画像モデル技術報告書
(krea.ai)- Krea 2は、単一の polished default よりも創作的な探索を重視する画像生成ファウンデーションモデルであり、モデルウェイトと推論を permissive license で公開している
- 学習プロセスはpretraining → midtraining → SFT → preference optimization → RLと進み、データキュレーション・キャプション・プロンプト拡張・スタイル参照が出力分布を段階的に洗練させる
- アーキテクチャはシンプルなDiT系をベースに、GQA、gated sigmoid attention、SwiGLU、Qwen 3 VL、Qwen Image VAE・FLUX 2 VAEなどを組み合わせ、安定性と効率のバランスを取っている
- Krea 2はtext-to-image部門のArtificial Analysis leaderboardでtop 10入りし、independent labsモデルの中では2位を記録した
- 大規模学習のためにPyTorch・FSDP2・テンソル並列化・Kubernetes・Virtual Kubelet・Weka・PostgreSQLベースのシステムを構築しており、次の段階としてMoE、sparse attention、native 2K–4K、NVFP4、Muon scalingを検討している
創作的な探索を狙った画像ファウンデーションモデル
- Krea 2は、幅広い美的多様性とユーザーの創作コントロールを目標とした画像生成ファウンデーションモデルシリーズである
- 公開資料は Release page、Hugging Face weights/license、GitHub code/license、Krea Image toolで提供されている
- モデルウェイトと推論は permissive license で公開されている
- Kreaは、diffusionおよびflow-matchingベースの画像モデルが高解像度画像、photorealism、安定した構図、密なテキストレンダリング、幅広い世界知識、精密なプロンプト準拠にまで進化してきた一方で、多くのシステムが狭い基本美学へと収束していると見ている
- Krea 2は、単一の polished default を最適化するのではなく、複数のスタイル、雰囲気、構図、視覚的方向性を探索できる生成メディアを志向している
- text-to-image部門のArtificial Analysis leaderboardでtop 10入りし、independent labsモデルの中では2位を記録した
データキュレーションとキャプション戦略
- Kreaチームは、broad world knowledgeとstyle coverageを備えたpretraining datasetを作るために、大規模データインフラと分散学習フレームワークをゼロから構築した
- 「良いdata mix」には高品質な画像だけでなく、多様性と広いdomain coverageが必要だと考えている
- aesthetic-scoreおよびimage-quality-assessmentベースのフィルタリングはimplicit biasを生む可能性がある
- motion blurやsoftnessが意図的な芸術的選択である場合でも、blurry imageとして低く評価されることがある
- captionが画像を正確に説明していれば、望ましくない画像であってもdownstream学習に役立つ可能性がある
- pretraining datasetでは、duplicated samples、over-represented concepts、VLMが重要な要素を捉えられないサンプル、undesired biasesやartifactsを引き起こすサンプル、低解像度では安定してモデリングしにくいhigh visual complexityサンプル、AI-generated samplesをフィルタリングしている
- Krea 2のpretraining mixにはAI-generated imagesを使用していない
- synthetic dataとdistillationはcapability獲得のshortcutになり得る
- 少量のAI-generated imagesであっても、モデル出力分布にbiasを導入し、model qualityのupper boundを事実上規定してしまうと見ている
- これを見分けるためにin-house classifiersを設計した
- キャプションはmulti-stage方式で構成されている
- target imageにOCR modelを実行してvisible textを抽出する
- OCR結果とmetadataをcaptioning modelに与え、抽出テキストとworld knowledgeを含むenriched captionを生成する
- context-richなlong-form captionを、より低コストなLLMでさまざまな長さと形式に再構成し、複数のprompt styleにさらす
- long promptsはdense supervisionを提供し、より速い収束とより低いtraining lossにつながった一方で、downstream利用のためにshort/medium promptへの露出も維持した
解像度別の学習データとmidtraining
- pretraining dataは 256px、512px、1024px のresolution stagesを経る
- FLOPsの大半をlow-resolution stageに割り当て、core capabilityを効率的に学習する
- その後、resolutionを高めながらhigh-fidelity generation capabilityを付与する
- low-resolution pretrainingではbasic text-image alignmentとstructureを学習する
- low-resolution datasetはbillions of images規模のため、低コストなCPU-based filtersに大きく依存する
- broken-file、resolution、aspect-ratio filtersで不適切な画像を除去する
- Laplacian filtersでextreme texturesやnoise patternsのある画像を除去する
- RGB entropy、white/black pixel ratios、custom heuristics、in-house classifiersでflat-color backgroundsやborder artifactsを減らす
- in-house classifierは、large VLMでfiltering task向けのsystem promptを作成し、pseudo-labeled datasetを生成した後、small DINOv3またはSigLIP-2ベースのclassifierを学習する方式で構築する
- low-resolution段階では、GPU computeが必要なfiltering modelは効率のため1B parameters未満に維持する
- low-resolution deduplicationでは、md5、phash、colorhashを組み合わせたhash-based methodsを主に使用する
- 基本の8x8 phashはcolorを考慮しないため、false-positive rateが高かった
- より堅牢なdeduplicationのため、12x12 phashとcolorhashを組み合わせる
- training resolutionが大きくなるにつれて、image-qualityとaesthetic filtersを導入する
- quality scoreは極端にpoor qualityな画像を除去する目的にのみ使用し、scoreベースのoversamplingには使わない
- OCRベースのimage-complexity scoreとtext densityにより、low resolutionではtextやcontentを意味のある形で表現しにくい画像を除外する
- SigLIP-2 embeddings上にsparse autoencoderを学習して SAEベースのtagging system を作成し、explicit classifierなしでclear visual artifactsをフィルタリングするのに活用する
- midtrainingはpretrainingと異なり、特定のvisual domainで良好なstylistic coverageとhigh-quality imagesを提供するimage sourcesを明示的に選択する
- pretrainingはgeneral poolから始めるbottom-upプロセスである
- midtrainingはdomainsとsourcesを先に選ぶtop-downキュレーションである
- general pretraining distributionとhigh-quality SFT distributionを滑らかにつなぐ段階である
- semantic clusteringとretrieval-based strategiesでworld-knowledge coverageを補強する
- FAISSでhierarchical k-means clusteringを実行する
- VLMがcluster centroid付近の画像を検査し、clusterに名前を付け、必要に応じてflagする
- flagged clustersはhuman reviewを経て、low qualityまたはproblematicなclusterを除去する
- 残ったleaf cluster内では、SigLIP similarityでsemantic deduplicationを行う
- named entity coverageのため、DankerでEnglish Wikipediaに対してPageRankを実行し、rank基準でtop 90% articlesを維持する
- Wikidata metadataで表現不可能なsubjectsを除去する
- 残る約 5 million concepts について、dataset全体のcaptionにfull-text searchを実行する
- サンプリング時には、rare conceptsに言及したcaptionの画像を優先する
アーキテクチャ選定とablation
- Krea 2はablationを通じて、シンプルながら高性能な**diffusion transformer(DiT)**アーキテクチャを開発した
- architecture ablationは、stability、performance、efficiency、simplicityの4つのカテゴリで評価した
- stabilityでは、loss/gradient spikeの減少と学習安定性を確認した
- performanceでは、収束速度とhigh resolutionおよび長いhorizonで維持されるかを確認した
- efficiencyでは、qualityを損なわずにparameter count、FLOPs、memory、communicationを削減できるかを確認した
- simplicityでは、他のカテゴリを損なうことなくmodelを単純化できるかを確認した
- 多くのアーキテクチャ上の決定はLLM分野での採用動向の影響を受けており、LLM ecosystemのkernelやoptimizationをdiffusion modelでも活用できると考えた
- 最終アーキテクチャの主な選択は次のとおり
- Attentionはgated sigmoid attentionを備えたGQAを使用した
- MLPはGeLU MLPから、4x expansion factorのSwiGLU layersに変更した
- Residualはstandard residualを維持した
- Text encoderはQwen 3 VLを使用した
- Modulationはper-block MLP modulationから、bias付きのlight modulationに変更した
- AutoencoderはQwen Image VAEとFLUX 2 VAEを使用した
- Block designはsingle stream transformer blockを使用した
- Normはzero-center RMSNormとQKNormを使用した
- Positional encodingは3D Axial RoPEを維持した
- GQAは、劣化を最小限に抑えながらcomputational efficiencyを改善した
- MLAはGQAよりわずかなgainを示したが、additional computational overheadのため採用しなかった
- gated sigmoid attentionは大きなperformance gainはなかったものの、lossとgradient-norm curvesにおいてより安定したdynamicsを示した
- single-stream、dual-stream、hybrid-stream designの間に大きなperformance差はなく、hybrid-streamがわずかに優れていたが、単純性のためsingle-stream blocksを使用した
- MMDiTのper-block MLP modulationはtotal parameter countの20〜30%を占めうるため、Krea 2はこれをper-block tunable bias termに置き換えた
- timestep conditioningの実験では、256pxでは4〜16個のtimestep tokensでAdaLNを置き換えるのに十分だったが、512pxと1024pxではAdaLN baselineより性能が悪かった
- 最終的なpositional encodingは、head dimensionsをframe、height、widthに割り当てる3D axial RoPEである
- text tokensのRoPE indicesはzeroに設定した
- partial RoPEは256pxから512pxへscaleする際に良好なzero-shot inference結果を示したが、high-resolution training後の最終性能はbaselineを下回った
- autoencoderはFLUX.1-dev autoencoderをbaselineとして開始し、Qwen Image VAE、DC-AE、FLUX 2 VAE、internal autoencoderと比較した
- DC-AEはreconstruction errorのため、fine detailの解像能力に厳しいhard upper limitを与えるとみられた
- Qwen Image VAEとFLUX 2 VAEはexcellent reconstruction qualityを維持しつつ、latent spaceがはるかに速いconvergenceを提供した
- 初期モデルではQwen Image autoencoderを使用し、より大規模なモデルではFLUX 2 VAEを採用した
- text encoderはT5-XXL、T5Gemma、umT5、Qwen 2.5 VL、Qwen 3 VLを比較し、最終text encoderとしてQwen 3 VLを使用した
- VLMはtextとimageを含む、より豊かなinput spaceと、より強いmultilingual generalizationを提供した
- VLM featureではlast layerだけを使わず、全layersのhidden featuresをaggregateするshallow attention layerを導入した
- token axisにlightweight bidirectional transformer layersを追加し、autoregressive biasを低減した
学習パイプライン、選好最適化、RL
- training pipelineは、modern LLM training pipelineに着想を得たmulti-stage構造である
- pretrainingは、text-image alignment、text rendering、stylistic coverage、structural consistencyのようなbasic capabilitiesを確立する
- final modelは、standard rectified-flow lossとv-parameterizationで学習する
- 256px stageのfirst epochでは、iREPAを用いてearly stage convergenceを大幅に高速化した後、これを除去する
- 256pxおよび512px stagesでは、8-bit trainingによりbf16 baseline比で15–20% training speed gainを観測した
- 1024pxからfinal RL stageまでは、standard bf16 trainingを使用する
- high-resolution pretrainingでは、resolution-dependent timeshift scheduleへの適応が重要である
- trainingとinferenceの両方で、shifted logit-normal sampling scheduleを使用する
- resolutionが上がるにつれて、shiftを段階的に増加させる
- sweepはtraining shiftにのみ適用し、inference shift scheduleはconstantに維持する
- pretraining中は、warmup-stable-decay learning-rate scheduleを使用し、PMAを適用する
- PMAは、EMAとcomparable performanceを達成しつつ、EMAのsignificant memory overheadを回避する
- optimizerは、pipeline全体でAdamWをprimary optimizerとして使用する
- Muonはinitial stepsではAdamWより速く収束したが、longer horizonsでは低い性能とstability issuesを示した
- MMDiTのfirst and last linear layersをMuon parametersから除外し、Nesterov momentumを追加すると、low/high resolutionの両方でAdamW baselineを一貫して上回った
- 最新のpretraining runでは時間的制約のためMuonを採用せず、次のpretraining cycleで採用する計画である
- SFT stageでは、highly aesthetic imagesのsmall dedicated setをキュレーションする
- 目的は、modelをよりaesthetically desirable directionsへバイアスさせることである
- earlier checkpointsで一般的だったhigh-saturationおよびtexture issuesの解決に特に役立つ
- domain-specific SFT checkpointsを学習した後、model mergingによってgeneralist SFT checkpointを作成する
- preference optimizationは、post-training stackの最初の段階であり、two-stage pipelineで構成される
- 第1段階では、large-scale synthetic preference-pair generation pipelineによりinitial refinementを行う
- preference pairsのmajorityは、少なくとも1つのon-policy sampleを含む
- 第2段階は、human annotationsのみを使用するcalibration stageである
- human annotationsは、modelのstrengths、weaknesses、quirksに精通した社内スタッフが収集する
- POでは、policy divergenceがcommon phenomenonとして現れる
- DPO系の手法は、preferred sample likelihoodとdispreferred sample likelihoodの間のmarginを拡大するよう促す
- 複数のpreference-dataset mixturesにおいて、モデルが両方のsampleのgeneration likelihoodを異なるrateで下げることでobjectiveを達成する現象を観測した
- divergenceは、モデルをgeneral pretraining distributionから遠ざけ、training後半でhigh-frequency artifactsとして現れる
- これを緩和するため、STPOというDPO variantを設計した
- RLはtraining pipelineのfinal stageである
- multi-reward GRPO-style methodを使用する
- reward modelsは、general aesthetic model、prompt-following reward、text-rendering reward、artifact and structure rewardで構成される
- general aesthetic modelは、PO stageで収集したpreference dataでopen-source VLMをfinetuningして得る
- prompt-specific rubric rewardは、promptをverifiable requirementsに分解し、generated imageがそれを満たしているかを評価する
- generic image qualityにprompt followingを還元せず、fine-grained prompt constraintsを満たすようにする
- structural artifactsを減らすため、dedicated artifact reward modelを学習する
- extra fingers、malformed limbs、distorted textのような誤りは人間には明確だが、general-purpose VLM judgesはしばしば見落とす
- RL stage全体は、CFGなしで学習する
- conditional model distributionを迅速に改善し、training初期にno-CFG samplesをguided samplesにはるかに近づける
- inference timeには、CFGを追加のcontrol knobとして引き続き有効化できる
- RL stageの後には、optional timestep-distillation stageを含む
- DMD、DMD2、Decoupled DMD、piFlow、APTを検討したが、Trajectory Distribution Matching(TDM) を採用した
- TDMは、timesteps全体にわたってDMDを適用し、trajectory levelでdistribution matchingを行う
プロンプト拡張とスタイル参照
- 学習時、モデルは画像の密な視覚ディテールを説明する豊富なキャプションを使用するが、実際のユーザー入力は短く曖昧で、表現の癖もさまざまである
- prompt expanderは、単純または不十分なuser promptを、ユーザーの意図を上書きすることなく、より豊かな視覚的方向性へと変換する
- 既存のopen-source LLMの上に、2段階のSFTとRLパイプラインで学習される
- 目標には画像品質の改善だけでなく、creative variationとcontrollable explorationも含まれる
- SFTデータは、long captionsからsynthetic “user captions”を生成して作成する
- synthetic user captionsは、target captionの多くのvisual detailsを意図的に省略した、短く conversational で semi-instructional なpromptである
- underspecified user prompt → expanded model-friendly caption形式のpaired dataを作成する
- reasoning abilityの保存のため、synthetic thinking tracesも生成する
- targeted distribution shapingも少量適用する
- visually rich and artistic imageryをoversampleする
- photorealistic descriptionsへ拡張されるべきpromptには、lightweight photographic-medium biasを追加する
- house styleの強制ではなく、expressive art-directed imageryとstraightforward photorealistic requestsの両方を含めることが目標である
- prompt expander RLは、target caption imitationから離れ、image qualityを改善しつつuser intentを保持するexpansionsの生成を目標とする
- GDPOとmulti-reward objectiveで学習する
- image-level rewardsは、resulting generationsのqualityとpreferenceを測定する
- prompt-level verifiable rewardsは、expansionがoriginal requestに忠実かどうかを確認する
- safetyとconstraint checksは、overall rewardのgatesとして使用される
- prompt expanderのfailure modeの1つは、diversity collapseである
- image rewardsが支配的な場合、single safe high-reward house styleを学習してしまう可能性がある
- prompt groups上にDINOv3 embedding diversity scoreを追加し、qualityとalignmentに加えてintra-group visual diversityも報酬として与える
- variationを保持するには、diversity rewardを学習全体を通じてactiveな状態に保つ必要がある
- style-reference systemはbase modelの上に構築される
- ユーザーはtextで画像を生成しながら、1つ以上のreference imagesでoutput styleをガイドできる
- multiple stylesのsmooth semantic mixing、各style reference strengthのcontinuous control、complex stylesに対するstate-of-the-art adherenceが設計目標である
- よくあるfailure modeの1つは、style imageのcontentやsubject matterがfinal imageへleakageすることだった
- style-reference module学習用のself-supervised techniqueを考案し、その後のpreference-optimization stepでoutputsをさらにalignする
分散学習インフラと運用
- Kreaの分散学習フレームワークはPyTorchベースでゼロから構築され、主に
DTensor抽象化とtorchtitanプロジェクトが支援するtorchネイティブ機能を使用している- ほとんどの事前学習および事後学習の実行では、FSDP2とMegatron-LMスタイルのテンソル並列化を併用している
- TPサイズが2より大きい設定では、
torch.compileフラグでasync-TPを有効化し、naive TPより中程度の速度向上を得ている - autoencoderパラメータはすべてのデバイスに複製し、text encoderとメインのMMDiT backboneのみをシャーディングしている
- ノード内接続にはNVLinkSharp、ノード間接続にはInfiniBandを使用している
- 学習効率のため、hidden dimensionがより大きい、やや幅広いモデルを使用している
- hidden sizeが大きくなると各レイヤーの計算集約度が高まり、FSDP2 prefetchingによってレイテンシを隠しやすくなる
- レイヤー数を減らすとall-gatherとreduce-scatter演算の回数が減る
- この変更により、事前学習の実行全体でNCCL関連エラーが大幅に減少した
- より大きな行列積サイズは、8-bit学習におけるquantization/dequantizationオーバーヘッドの相殺に役立つ
- 最適化戦略の中心は
torch.compileである- attentionにはデフォルトで最新のcuDNNカーネルを使用し、必要に応じてFlexAttentionまたはFlashAttention 3を使用している
- 低解像度ではselective activation checkpointingを使用している
- 高解像度ではactivationがメモリを支配し始めるため、full activation checkpointingを使用している
- データローディングの基本フォーマットはParquetである
- 各rowには画像参照、crop/resizeサイズ、caption、そのほかのmetadataを保存している
- 大規模実行では、同じaspect ratioの画像バッチを読み込めるようにrowを事前にshuffleしてpackingしている
- packingにより、latentを単一のautoencoder passでエンコードできる
- 大規模な分散学習では、単一GPUの障害やstragglerが実行全体を停止させる可能性がある
- Kreaの規模では、高速で頻繁なcheckpointingとstartup timeの改善によってMTBFとMTTRを最適化する方式で十分だった
- 研究はproduction inferenceとGPUを共有する単一のKubernetesクラスターで実行されている
- 研究が必要なときにGPUプール全体を占有できるよう設計している
- クラスター内のすべてのGPUが学習実行に割り当てられると、Kreaのinference workloadは自動的に別の場所へmigrateされる
- traffic failoverはシステムが処理し、ローカルGPUが残っていなくてもproduction responsivenessを維持する
- Kueueはworkload schedulingの中核要素だった
- KueueはWorkload priorityとKubernetes Pod priorityを組み合わせた2-tier priority systemを提供する
- multi-node trainingに必要なgang-schedulingを可能にする
- “borrowing”, “lending”, “reclamation”というqueueing primitiveはutilization最大化に役立つ
- すべてのGPUが研究に割り当てられた際に、別の場所でinferenceをスケールさせる構成要素にはVirtual Kubeletを使用している
- podがvirtual Kubernetes nodeにscheduleされると、Kreaコードがpod specificationをtarget providerと互換性のある形に変換する
- provider-side failureが発生した場合は、両側の状態をreconcileする
- recoveryはKubernetesに委任し、システムはfailureを検出してKubernetesへ伝播する
- observabilityは大規模pretrainingで最も多くを学んだ領域である
- GPU、PCIe、NVLink、InfiniBand関連のsubsystem metricなしでは、この規模のtrainingは不可能だった
- metricはDCGMとcustom DaemonSetの組み合わせで収集している
- GPUが75–78°Cを超えるとthrottlingが始まり、全体のthroughputが低下してtraining instabilityが増す
DCGM_FI_PROF_PIPE_TENSOR_ACTIVEは、trainingが想定どおりに行われているかを判断するためのpreferred indicatorだった- InfiniBand metricは、fabric instability、link flapping、packet error、congestion、symbol error、throughput disparityの診断に不可欠だった
- GPU count scalingは難しかった
- 128 GPU未満のrunは非常に安定しており、何日も問題なく実行されることが多かった
- GPU countを増やすと、runははるかに頻繁にcrashするようになった
- 非常に大規模なスケールでは、24時間を超えたrunを1つも完了できなかった
- 多くのcrashは明確な原因がなく、すべてのmetricがhealthyに見える状態でNCCL timeoutのように現れた
- 初期の大きな失敗の1つはCephの採用で、その後Wekaへ移行した
- filesystem関連の問題とdowntimeが急激に減少し、performanceも同程度に改善した
- WekaはKrea 2の学習でaggressive checkpointingを可能にした中核要素だった
- checkpointは約30秒で完了し、checkpointingによって失われる時間は少なかった
データウェアハウスとジョブキュー
- K2のデータ収集とキュレーションのために、PostgreSQLサーバークラスターを中心としたカスタムのwarehousing and queueing systemを構築した
- 各Krea tablet serverは「krablet」と呼ばれる
- 各krabletは、1つのdata shardを保持するPostgres instanceと、mutationを非同期にbatch/queueしてlock contentionを減らす「funnel」server deploymentで構成される
- すべてのreadは、大規模な「RPC」server deploymentを通じてproxyされる
- RPC serverは、PgBouncerのようなtraditional connection poolerを置き換える
- 各RPC serverは、databaseの全shardに対するconnection poolを維持する
- krablet systemはmetadataだけで208TBまでscaleし、競合する
UPSERTtransactionを毎秒数万件処理できる- すべてのresearch dataのsingle source of truthを提供する
- stream-processing layerをdata layerと同一にできるようにする
- 一般的なjob-processing workflowは、Postgres tableをqueueのように使う方式である
- OCR workerは、
contains_text IS NULLのrowを見つけて処理する - embed workerは、
embedding_path IS NULLかつcontains_text = FALSEのrowを処理する FOR UPDATE SKIP LOCKEDでrowをclaimし、last_tried_at系のcolumnを更新する
- OCR workerは、
- このqueue modelは、KafkaやRayとは異なるretry動作を持つ
- failure時にrowをdropしたりdead-letter queueへ送ったりしない
- 処理に失敗したrowも、
last_tried_atのatomic updateのおかげでqueueの末尾でretryされる - head-of-line blockingも防止する
- worker数は動的に調整できる
- processing jobはKubernetesでdeployされ、data reshardingなしに任意にscale up/downできる
- jobはworker 1個でも1000個でも実行できる
- Prometheusのscaling metricにより、pipelineの各部分をavailable workに応じてautoscaleできる
- 研究者の利便性のために、「pluck」というsystemを提供している
- notebookでの利用に適したglobal map APIを提供する
t.mapは、ユーザーがlive progressを見るためにattachできるhandleを返す- UDFは
cloudpickleでpickleされ、remote workerで実行される
- 次世代研究に向けて、krabletと
FOR UPDATE SKIP LOCKEDのqueue semanticsを維持しつつ、object storage上のLSM treeにdataを保存する後継systemを構築中である- 関連業務を担うsupercomputing / distributed systems teamの採用リンクを提供している: https://jobs.ashbyhq.com/krea/ebe94024-eef6-4306-a019-10072ad0f4c9
今後の方向性
- Krea 2では、安定性とiteration speedを優先し、比較的保守的なarchitectureとoptimizerの選択を行った
- 次のpretraining cycleでは、modern LLM transformer designをdiffusion transformerに適用しようとしている
- 検討対象には、MoE、sparse attentionによるnative 2K–4K resolution scale、NVFP4 pretraining、Muon scalingが含まれる
- 現在のmodelはundertrainedであり、より長いtrainingが有効だと見ている
- 現在のKrea 2 training pipelineは、multi-reward RL stageで終わる
- Kreaは内部expertを用いて、OPDとMOPDがdiffusion modelに有効なdistillation methodであることをすでに検証している
- より多くの結果を近く共有したいとしている
- production diffusion modelは、相互依存する複数のmodelから成る複雑な構成を必要とする
- latent diffusion model servingには、通常autoencoder、diffusion transformer、text encoder、prompt-expansion modelが必要である
- stackによっては、style-reference modelやupscalerのような追加moduleが入ることがある
- 独立して学習する必要がありつつ相互依存もある複数componentを維持すると、research teamのcoordinationが難しくなる
- Kreaは次のpretraining cycleでarchitectureを簡素化し、複数componentを単一modelの下に統合する計画である
- Krea 2はcreative explorationのためのimage generationに主に注力しており、今後はrobust editing、image reference、native 2K/4K generationへとcapabilityを拡張しようとしている
- 従来の自然言語promptingだけでは、ユーザーrequest全体の範囲を支えるにはもはや不十分だと考えている
- ユーザーpromptには、natural language、tag、detailed JSON、bounding box、instruction、visual guideline、Markdownなど多様なprompting styleが観察されている
- prompt expansionで一部は解決できるが、modelがこれらのpromptをnativeに理解すること自体もcore capabilityであるべきだと考えている
1件のコメント
Hacker Newsのコメント
最新のテキスト画像モデルの重みを公開し、学習過程をかなり深く扱った記事も同時に出している。
実際の学習やデータインフラのように、ふつうはあまり詳しく書かれない部分もかなり含まれていて、このあたりに関心がある人には読む価値がありそう。
この分野を追い続けてきた立場として、最終製品の裏にあった実験や努力を読めるのは本当に興味深いし、コミュニティが試せるようにファインチューニング用ツールの一部も公開してくれれば、モデルの可能性をさらに押し広げられそう。
主要モデルが、合法なケースであっても安全性を理由にこうした種類のコンテンツを強く排除する流れには、以前からもどかしさを感じていた。
もともとFlux.1 Kreaは昨年7月から自分のGenAI Showdownベンチマークサイトに入っていて、この分野ではそれがはるか昔のことのように感じる。新モデルもきちんとテストしてみたい。
Kreaの共同創業者兼CTOのDiego Rodriguezです。今回は重みと、現在の業界基準から見てもかなり充実した技術レポートを公開しました。
レポートには、データキュレーション/キャプショニング、モデルアーキテクチャ、追加学習、強化学習パイプライン、プロンプト拡張、スタイル参照、インフラを詳しく収めています。
重みは2種類あります。Krea 2 Turboはガイダンスとタイムステップを蒸留して推論を高速化したモデルで、Krea 2 RAWはハッキングやファインチューニングを念頭に置いたモデルです。
オープンLLMコミュニティは、モデルを複数サイズと学習パイプラインの複数段階で公開する点が優れていると考えており、今回は中間学習段階と追加学習段階のチェックポイントをすべて公開しました。画像・マルチメディア分野では珍しいことで、誇りに思っています。
Artificial Analysisのテキスト画像ベンチマークでは、画像品質はNano Bananaと同程度です: https://artificialanalysis.ai/image/leaderboard/text-to-imag...
個人と小規模事業者向けには寛容なライセンスも付けています。
OSSリリース紹介: https://www.krea.ai/krea-2-open-source / Huggingfaceモデル: https://www.krea.ai/krea-2/huggingface / GitHubリポジトリ: https://www.krea.ai/krea-2/github / Reddit AMA: https://www.reddit.com/r/StableDiffusion/comments/1udnm0a/we... / 技術レポート: https://www.krea.ai/blog/krea-2-technical-report
結果が出ていて、特にTurboモデルが8ステップであれだけ速いことを考えると、本当に印象的。
ローカルホスティング可能なモデルの中でこれを上回ったのはIdeogram 4だけだったが、あちらははるかに遅い。分単位と秒単位の差がある。
九つの頂点を持つ星、Count Rugen、人が多すぎる平らな地球といったいつもの「モデルキラー」には崩れたものの、全体としては体格以上の働きを見せ、ローカルホスティング可能モデルの中で最高スコア、全体ではIdeogram 4のすぐ下で15テスト中6件を通過した。
ローカルホスティング可能モデルだけを比較するGenAIリンク: https://genai-showdown.specr.net/?models=fd,hd,kd,qi,f2d,zt,...
テスト方法として、こんな奇妙に具体的な項目にたどり着いているのが面白い。
オープンウェイトモデルがさらに増えるのは良いし、踏み込んだ記事も本当に気に入った。
さまざまなスタイルを作れるようにマニフォールドを広く保つというアプローチも良い。スタイルプリセット数個だけにぴったり合うよう調整するより良いと思う。
ただ、Nano Banana 2やImages 2.0のような高度な画像対画像/エージェント型構成モデルがすでに強く出てきているので、今となっては「前の戦争を戦っている」感じもする。
ベースのQwen 3 VLをクロスで入れる方式で、そのレベルの画像対画像に近づけるのかはかなり疑わしいし、堅牢な画像対画像は、編集、調整、キャラクター一貫性、そして現在スタイル転送に使っているものの一般化という点で非常に重要だ。スタイル転送の部分も説明不足に見える。
そのレベルに到達するのは簡単ではないだろうが、画像モデルの次の主戦場は間違いなくここだと思う。Ideogramはその方向に積み上げているようだが、オープンウェイト側ではまだあまり見ていない。
エージェント型ワークフローはKrea 2と互換性があるので、その点はよく分からない。編集モデルのことを言っているなら、それも準備中。
テキスト画像ベンチマークでも同程度の水準で、上のコメントに貼ったArtificial Analysisのリンクを見れば分かる。
Nano BananaやChatGPTを再学習させて顧客のブランドを理解させることはできないが、そこがまさに私たちの顧客が繰り返し不満を訴える部分でもある。しかもオープンソースなので、1対1の比較は簡単ではない。
スタイル転送が説明されていないという指摘も曖昧だ。ページには「reference」が11回出てきて、実際に読んでみるとかなり多く扱われていた。
Kreaがモデル重みをダウンロードできるようにした点はありがたいが、ライセンスにこうした条項があるならオープンソースではない: https://huggingface.co/krea/Krea-2-Raw/blob/main/LICENSE.pdf
商用利用は会社全体の直近12か月の年間売上高が100万ドル未満の場合にのみ許可され、それを超える場合は別途エンタープライズライセンスが必要
また、Kreaモデル、派生物、出力物を関連法、契約、許可利用ポリシーに違反して使ってはならず、配布時には禁止・有害・違法コンテンツの生成を検知・防止・緩和するための合理的なコンテンツフィルターを実装しなければならない
許可利用ポリシーにも従う必要があり、ポリシーページ https://www.krea.ai/krea-2-use-policy には、Kreaまたは配布者が実装した安全装置、利用制限、コンテンツフィルター、出典表示、ウォーターマーキングの回避を禁止する条項も含まれている
TurboはすでにGGUF変換版が出ているようだ: https://huggingface.co/Abiray/Krea-2-Turbo-GGUF
採用ページに興味深い項目がある
昔ながらのMellanoxがどんな場所だったか知っている人には好みに合うかもしれない: https://jobs.ashbyhq.com/krea/ebe94024-eef6-4306-a019-10072a...
良いモデルだが、Qwen VAEを使っている点は少し残念
両方使ってみた後では、Flux VAEのほうが写実的なテクスチャ学習でやや優位だと思うが、思うほど大きな差ではない。Qwen VAEも抑制的な実験では全体的に非常によく、多様なスタイル生成を学ぶのに強かった
まだ自分で試してみる時間はなかった
Krea 2を試すのが楽しみだ。Z-Image Turboを毎日使っていて、写実的な画像やイラスト用途ではストックフォトのサブスクリプションを置き換えた
学習コストがどれくらいかかったのか気になる
学習コストは、推論と研究ワークロードが同時に走る共有Kubernetesクラスターを使っていたため、正確に見積もるのが難しい
こういうモデルをセルフホストするとき、何を使っているのか気になる
ollamaとopen-webuiを試したが、画像生成はまったくサポートしていなかった
行き詰まったら、まずワークフローをコピー&ペーストする形で始めればよい
https://github.com/LostRuins/koboldcpp