DeepSeek-V3.2-Exp, das neueste Modell des chinesischen Chatbots, führt DSA, Effizienz, API und Bereitstellung ein

  • V3.2-Exp führt DSA ein, um den Langkontext mit minimalem Qualitätsverlust zu beschleunigen.
  • Leistungsparität mit V3.1-Terminus und API-Preis -50 % jetzt live.
  • Open Source: Gewichte in Hugging Face, Kernel in TileLang, DeepGEMM und FlashMLA.
  • Praktischer Leitfaden: Endpunkte, Streaming, Funktionsaufruf und lokale Ausführung.

DeepSeek-V3.2-Exp

DeepSeek-V3.2-Exp ha llegado als experimentelle Iteration, die sich auf Effizienz im großen Maßstab und in langen Kontexten konzentriert, mit einem klaren Wink an die Community: Open Source, veröffentlichte Kernel und eine günstigere API.

Abgesehen vom Lärm ist der Schlüssel, dass dieses Modell, basierend auf V3.1-Terminus, stellt einen feinkörnigen Sparse Attention-Mechanismus namens DeepSeek Sparse Attention (DSA) vor, der Training und Inferenz beschleunigt und gleichzeitig die Qualität beibehält. Das Unternehmen hat ihn bereits in App, Web und APIund hat die Nutzungspreise um mehr als 50%, ein aggressiver Schritt, der, offen gesagt, die Konkurrenz unter Druck setzt.

Wichtige neue Funktionen von DeepSeek-V3.2-Exp

Die wichtigste Innovation ist DSA, das eine selektive Aufmerksamkeit auf relevante Teile des Kontextes, ohne die gesamte Sequenz erschöpfend durchzugehen. Nach Angaben des Unternehmens selbst ist der Einfluss auf die Qualität sehr gering, während die Effizienzgewinn im Langzeitkontext ist es greifbar.

In der Verfügbarkeit ist das Modell betriebsbereit in Anwendung, Web und API vom ersten Tag an, begleitet von einem deutlichen Preisrückgang (50%+), um Tests und Einführung zu erleichtern. Für diejenigen, die vergleichen möchten, unterhält DeepSeek eine temporärer Endpunkt von V3.1-Terminus bis 15. Oktober 2025 um 15:59 UTC.

Leistung und Benchmarks von DeepSeek-V3.2-Exp: Parität mit V3.1-Terminus

DeepSeek hat gesucht nach Parität mit V3.1-Terminus auf einer breiten Palette von Tests, um den Effekt der Einführung von Streuung der Aufmerksamkeit zu isolieren. In der Praxis führt dies zu vergleichbaren Metriken im Denken, Verschlüsselung und Verwendung von Agenten-Tools.

Verschiedene Quellen liefern Zahlen, die dabei helfen, Erwartungen zu formulieren: V3.2-Exp wird als Modell beschrieben mit 685 Milliarden Parameter und ähnliche Leistung oder mit leichten Abweichungen je nach Domäne. In der Argumentation ohne Werkzeuge werden Zahlen wie 85.0 zitiert MMLU-Pro y 89.3 en AIME 2025; in Agentenszenarien erscheinen 40.1 in BrowseComp y 67.8 en SWE verifiziertDies sind Ergebnisse, die mit der offiziellen Darstellung übereinstimmen Effizienz validieren anstatt einen großen Sprung in der Genauigkeit anzustreben.

Es gibt sogar schöne Vergleiche: Bei Codieraufgaben steigt der 2121 in Codeforces im Vergleich zu 2046, während in humanistischeren Tests leichte Rückgänge beobachtet werden (z. B. 19.8 im Vergleich zu 21.7 in Humanity's Last Exam). Insgesamt deutet die Tabelle darauf hin, Gleichgewicht: konkrete Verbesserungen und kleine Zugeständnisse, wobei die Geschwindigkeit im Vordergrund steht.

DSA: Feinkörnige, verstreute Aufmerksamkeit, klar erzählt

Bei breiten Kontexten wird die klassische Pflege teuer; DSA Minimiert den Aufwand dort, wo er wenig beiträgt. Durch die Anwendung von Sparsity mit feinkörniger Steuerung konzentriert das Modell die Berechnung dort, wo es tatsächlich Signale findet, und verbessert so die Latenz und den Verbrauch zu reduzieren, ohne die Leistung zu beeinträchtigen.

Auf der Ebene der realen Erfahrung ist dies bei Aufgaben spürbar, die erfordern viel Kontext: lange Dokumentzusammenfassungen, Protokollanalysen, Agenten, die lange Dialoge führen, oder Pipelines, die Abruf und Generierung kombinieren. Genau dort, die Leistungsfähigkeit Es handelt sich dabei nicht um Luxus: Es macht den Unterschied, ob etwas im großen Maßstab nutzbar ist oder nicht.

Verfügbarkeit, Preise und Vergleiche von DeepSeek-V3.2-Exp

DeepSeek hat angekündigt, dass V3.2-Exp jetzt verfügbar ist auf App, Web und API. Darüber hinaus hat es den Preis der API um mehr als 50% mit sofortiger Wirkung, eine Entscheidung, die darauf abzielt, die Akzeptanz zu erweitern und zu fördern Vergleichstests.

Für diejenigen, die mit dem Vorgängermodell vergleichen möchten, wird V3.1-Terminus in einem Endpunkt vorübergehend bis 15.10.2025 15:59 (UTC). Das Unternehmen lädt auch zur Einreichung von Feedback durch ein öffentliches Formular, wodurch eine Dynamik der kontinuierlichen Verbesserung mit der Community verstärkt wird.

Open-Source-Status: Gewichte, technischer Bericht und Kernel

DeepSeek veröffentlicht das Modell in Hugging Face, zusammen mit einem technischer Bericht die Veränderungen und Ergebnisse dokumentiert. Es gibt ein klares Bekenntnis zur Transparenz und zur Förderung langfristiger angewandter Forschung mit geringere Kosten.

Auf Kernel-Ebene gibt es zwei Möglichkeiten: TileLang für Lesen und Prototyping zugänglicher und CUDA für maximale Leistung. Logit-Indexkernel (einschließlich seitenbasierter Varianten) sind in DeepGEMM, während diejenigen mit zerstreuter Aufmerksamkeit in veröffentlicht werden FlashMLADiese Trennung erleichtert es den forschungs- und produktionsorientierten Communities, ihren Platz zu finden.

Lokale Ausführung von DeepSeek-V3.2-Exp und Inferenzdemos

DeepSeek bietet ein Repository von Inferenz Mit einer aktualisierten Demo können Sie schnell loslegen und die Architektur überprüfen. Der erste Schritt besteht darin, die Hugging Face-Gewichte in das von der Demo erwartete Format zu konvertieren und dabei die Anzahl der Experten und die Modellparallelität zu definieren.

Beispielbefehle für die interaktive Konvertierung und Generierung (setzen Sie EXPERTS=256 und MP auf die Anzahl der GPUs): kann so verwendet werden, wie es ist in einer vorbereiteten Umgebung.

cd inference export EXPERTS=256 python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP} export CONFIG=config_671B_v3.2.json torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

Für diejenigen, die es bevorzugen SGLang, es gibt vorbereitete Images und einen Boot-Befehl. Der Support umfasst NVIDIA (H200), AMD (MI350) GPUs und bestimmte NPUs mit spezifischen Tags.

# H200 Docker Pull lmsysorg/sglang:dsv32 # MI350 Docker Pull lmsysorg/sglang:dsv32-rocm # NPUs Docker Pull lmsysorg/sglang:dsv32-a2 Docker Pull lmsysorg/sglang:dsv32-a3 python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

Wenn Sie es vorziehen vLLM, hat Unterstützung vom ersten Tag an. Es ist ratsam, die offiziellen Rezepte auf aktuelle Parameter zu überprüfen und Optimierungen durch Hardware.

API: Endpunkte, Kompatibilität und Ablauf

Die API von DeepSeek folgt Standardkonventionen und ist mit gängigen SDKs kompatibel. Standardmäßig wird die Basis-URL verwendet https://api.deepseek.com Sie zielen auf V3.2-Exp ab, was die anfängliche Integration und den Zugriff auf die reduzierte Rate.

Zum Benchmarking gibt es einen temporären Endpunkt für V3.1-Terminus: https://api.deepseek.com/v3.1_terminus_expires_on_20251015. Beachten Sie das Ablaufdatum und die Uhrzeit (15. Oktober 2025, 15:59 UTC), um zu planen Benchmarks.

Darüber hinaus besteht Kompatibilität mit dem Ökosystem von Anthropisch. Sie können die Basis verwenden https://api.deepseek.com/anthropic für Interaktionen im Claude-Stil oder die mit dem temporären Endpunkt verknüpfte Variante, wenn Sie einen Vergleich mit dem vorherigen Modell durchführen müssen.

Authentifizierung und Schlüsselverwaltung

Anfragen werden authentifiziert durch Träger im Autorisierungsheader. Generieren Sie Ihren Schlüssel über das DeepSeek-Dashboard und speichern Sie ihn sicher, beispielsweise in Umgebungsvariablen oder Dateimanagern. Geheimnisse als AWS Secrets Manager.

Das Panel zeigt die Nutzung und Abrechnung an, um den Verbrauch von Token. Obwohl die Preise gesunken sind, ist es ratsam, Ratenbegrenzungen und regelmäßige Schlüsselrotationen auf Computern anzuwenden, zusätzlich zum Widerruf aller kompromittierter Schlüssel Ohne Verspätung.

Chat-Abschlüsse, Vorlagen und grundlegende Anfragen

Der zentrale Endpunkt ist /chat/abschlüsse, das mehrstufige Dialoge verarbeitet und den Kontext zwischen den Aufrufen aufrechterhält – ein ideales Szenario für die Stärken von V3.2-Exp im Bereich langer Kontexte. Es gibt zwei typische Modellmodi: Deepseek-Chat y Deepseek-Reasoner.

Ein einfacher Anforderungstext könnte mit Escape-JSON (hier zur Vereinfachung als " dargestellt) wie folgt aussehen: umfasst eine Systemaufforderung und eine Benutzeraufforderung.

{ "model": "deepseek-chat", "messages": [ { "role": "system", "content": "Sie sind ein technischer Experte." }, { "role": "user", "content": "Erklären Sie spärliche Aufmerksamkeit." } ], "stream": false }

Wenn Sie Antworten in Echtzeit wünschen, aktivieren Sie stream=true. Die Header müssen Content-Type: application/json und das Autorisierungstoken: Bearer ${DEEPSEEK_API_KEY} enthalten. Wenn Sie mit expliziter Argumentation arbeiten, können Sie das Verhalten mit dem Flag steuern reasoning.enabled.

Antwortstruktur und SSE-Streaming

Nicht-Streaming-Antworten umfassen Felder wie id, Objekt, erstellt, Modell, Auswahlmöglichkeiten und Verwendung. Unter Auswahlmöglichkeiten finden Sie den generierten Inhalt (Rolle: "Assistent") und unter Verwendung die Details von prompt_tokens, completion_tokens und total_tokens.

Im Streaming-Modus sendet die API Vom Server gesendete Ereignisse. Jedes Fragment kommt als Datenereignis mit einem Delta an, das Sie akkumulieren müssen. Dies ist die ideale Option für Schnittstellen interaktiv oder Terminals mit inkrementeller Ausgabe.

Funktionsaufruf und Ausgabe in striktem JSON

Sie können definieren Werkzeuge Das Modell entscheidet also, wann eine Funktion aufgerufen werden soll, beispielsweise um Daten abzurufen oder Aktionen auszuführen. Dies passt gut zu Agentenflüssen und Integrationen. Backend.

Wenn Sie eine strukturierte Ausgabe benötigen, erzwingen Sie den JSON-Modus mit response_format. Dies ist nützlich für die Datenextraktion oder Validierung automatisch in Rohrleitungen.

Python-Beispiele mit SDK im OpenAI-Stil

Mit Python ist die Eingabekurve sehr glatt. Stellen Sie die api_base Definieren Sie wie bei DeepSeek den Schlüssel und starten Sie Anforderungen. Sie können je nach Anwendungsfall zwischen Standard- und Streaming-Modus wechseln.

importiere openai openai.api_base = "https://api.deepseek.com" openai.api_key = "Ihr_API-Schlüssel_hier" Antwort = openai.ChatCompletion.create( Modell="deepseek-chat", Nachrichten=[ {"Rolle": "System", "Inhalt": "Sie sind ein Programmierassistent."}, {"Rolle": "Benutzer", "Inhalt": "Schreiben Sie eine Python-Funktion zum Berechnen der Fibonacci-Zahlen."} ], Stream=Falsch ) Drucken(Antwort.Choices[0].Nachricht.Inhalt) # Streaming Stream = openai.ChatCompletion.create(Modell="deepseek-chat", Nachrichten=[...], Stream=True) für Chunk im Stream: wenn chunk.choices[0].delta.content nicht None ist: Drucken(chunk.choices[0].delta.content, Ende="") # Funktionsaufruf (Tooldefinition) Tools = [ { "Typ": "Funktion", "Funktion": { "Name": "get_weather", "description": "Aktuelles Wetter abrufen", "parameters": { "type": "object", "properties": { "location": {"type": "string"} }, "required": [ "location" ] } } } ]

Für eine strikte JSON-Ausgabe setzen Sie Antwortformat a {"type": "json_object"}. Und wenn Sie lange Dialoge führen, denken Sie daran, den Kontext eingrenzen um Sie innerhalb der Grenzen zu halten und die Effizienz zu maximieren.

Integration mit Apidog

Apidog beschleunigt die Prototyping Rückruf: Importieren Sie Spezifikationen, speichern Sie Umgebungsvariablen (wie den Schlüssel), erstellen Sie POSTs und testen Sie im laufenden Betrieb. Der Antwortsimulator erleichtert das Testen von Extremfällen ohne zusätzliche Kosten. Token.

Es generiert auch Code-Schnipsel in verschiedenen Redewendungen und bietet eine Zeitleistenansicht zum Debuggen von Authentifizierung oder Parametern. Da V3.2-Exp breite Kontexte verarbeitet, ist Apidog eine großartige Möglichkeit zum Experimentieren mit lange Eingabeaufforderungen und sehen Sie die Leistung.

Bewährte Vorgehensweisen, um das Beste daraus zu machen

Definieren von Systemaufforderungen klar und prägnant die das Verhalten abgrenzen. Bei komplexen Problemen kann der Denkmodus hilfreich sein, indem er mit für Ihren Fall geeigneten Techniken zur Gedankenstrukturierung kombiniert wird.

Verwalten Sie die Kontext mit Kopf: Obwohl V3.2-Exp lange Kontexte toleriert (Fälle bis zu 128K werden zitiert), kann eine übermäßige Historie die Effizienz beeinträchtigen. Es implementiert intelligente Kürzung, versteckt für häufige und Batch-Abfragen, wo es sinnvoll ist.

Im Sicherheitsbereich bereinigt es die Eingabe, um sofortige Injektionen zu verhindern, und protokolliert Interaktionen, um PrüfungPassen Sie Temperatur und top_p Ihrem Ziel entsprechend an: niedrige Werte für Determinismus, hohe Werte für Kreativität.

Führen Sie A/B-Tests durch zwischen Deepseek-Chat y Deepseek-Reasoner um den optimalen Modus zu wählen. Und denken Sie an die Ratenbegrenzung, um Überraschungen in der facturación.

Vergleich mit V3.1-Terminus

Die Einführung von DSA bringt Verbesserungen in Latenz die in einigen Szenarien die dreifache Geschwindigkeit erreichen, ohne die allgemeine Qualitätsparität zu beeinträchtigen. Es ist eine Entwicklung, die sich auf die Beziehung konzentriert Leistung/Effizienz mehr als in Genauigkeitsaufzeichnungen.

Die kleinen Zuwächse bei der Kodierung und die leichten Rückgänge in den Geisteswissenschaften spiegeln die Feinabstimmung eines Modells wider, das von Natur aus experimentellDer zeitliche Endpunkt von V3.1 ermöglicht direkte Vergleiche, die die DSA-Gewinne auf lange Sicht zeigen.

Erweiterte lokale Bereitstellung

Für datenschutzsensible oder Offline-Bereitstellungen laden Sie die Pesos Die Verwendung der offiziellen Konvertierungsskripte von Hugging Face ist die beste Lösung. Legen Sie die Anzahl der Experten fest (z. B. 256) und passen Sie die Modellparallelität an Ihre Bedürfnisse an. GPUs.

Die Inferenz-Demo ermöglicht das Testen im interaktiven Modus, und die Kernel in TileLang oder CUDA hilft Ihnen, die Leistung entsprechend den Prioritäten zu steigern: Geschwindigkeit des Prototyping oder maximaler Durchsatz in Produktion.

Offene Kernel und Leistung

TileLang priorisiert Lesbarkeit und Design für die Forschung, sodass Sie neue Ideen schnell umsetzen können. Es ist perfekt, wenn Sie Pflegevarianten erkunden. verstreut oder Speicheroptimierungen.

Um jede Millisekunde auszunutzen, kommen CUDA-Kernel ins Spiel: Logit-Indizes (mit seitenweiser Version) sind in DeepGEMM, während diejenigen mit zerstreuter Aufmerksamkeit in FlashMLADiese Segmentierung ermöglicht es jedem Team, die Stapel optimal ohne Nacharbeit.

DeepSeek-V3.2-Exp Lizenz, Termin und Kontakt

Das Repository und die Pesos Das Modell wird unter der MIT-Lizenz veröffentlicht. Dies ermöglicht eine flexible kommerzielle Nutzung und fördert die Akzeptanz. Innovation im Ökosystem.

Um in Jobs auf V3.2-Exp zu verweisen, bietet DeepSeek eine Terminerfassung vom Typ @misc mit dem Titel «DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention» und Autorschaft «DeepSeek-AI» (Jahr 2025). Bei Fragen oder Problemen lautet die Kontakt-E-Mail service@deepseek.com.

Offizielle Ressourcen und nützliche Links zu DeepSeek-V3.2-Exp

Wenn Sie das Modell herunterladen möchten, haben Sie es in Gesicht umarmenDas Whitepaper ist auf GitHub verfügbar, zusammen mit Implementierungsdetails und Bewertungen.

Vergleichstests zwischen V3.2-Exp und V3.1-Terminus finden Sie im Offizieller Führer. Und wenn Sie Vorschläge senden möchten, haben Sie einen Kanal von Feedback öffentlich unter https://feedback.deepseek.com/dsa.

Mit V3.2-Exp priorisiert DeepSeek eine einfache Idee: Effizienz ohne QualitätseinbußenDSA ebnet den Weg für Modelle, die massive Kontexte zu angemessenen Kosten unterstützen. Die optimierte API stellt diese Funktionen mehr Teams zur Verfügung und die Offenheit des Stacks (Gewichte, Kernel und Dokumentation) erleichtert der Community die reibungslose Recherche, den Vergleich und die Erstellung echter Produkte.