DeepSeek stellt das Fire-Flyer-Dateisystem vor: Ein KI-optimiertes paralleles Dateisystem auf Linux-Basis

  • DeepSeek hat das Fire-Flyer File System (3FS) auf den Markt gebracht, ein Hochleistungsdateisystem für künstliche Intelligenz.
  • 3FS optimiert den Datenzugriff in Trainings- und Inferenzprozessen von KI-Modellen und nutzt dabei SSD- und RDMA-Netzwerke.
  • Das System wurde als Open Source unter der MIT-Lizenz veröffentlicht und kann von der Community verwendet und geändert werden.
  • Mit einer Leseleistung von 6.6 TiB/s übertrifft es andere verteilte Speicherlösungen bei weitem.

Fire-Flyer-Dateisystem von DeekSeek

DeepSeek, das auf künstliche Intelligenz spezialisierte chinesische Unternehmen, hat einen weiteren Schritt in der Entwicklung technologischer Werkzeuge zur Optimierung der Verarbeitung großer Datenmengen gemacht. Sein neuer Vorschlag ist Fire-Flyer-Dateisystem (3FS), ein paralleles Dateisystem zur Verbesserung der Effizienz beim Training von KI-Modellen und bei Inferenzaufgaben.

Datenspeicherung und -zugriff sind entscheidende Aspekte in Umgebungen der künstlichen Intelligenz, insbesondere wenn große Datensätze verarbeitet werden und eine schnelle Informationsübertragung erforderlich ist. Traditionelle Systeme genügen nicht immer den aktuellen Anforderungen. DeepSeek hat 3FS als skalierbare und leistungsstarke Lösung entwickelt.

Hauptmerkmale des Fire-Flyer-Dateisystems

3FS ist ein Linux-basiertes verteiltes Dateisystem, das für den Einsatz in High-Performance-Computing- (HPC) und künstlichen Intelligenzumgebungen optimiert ist. Sein Design ermöglicht eine effiziente Speicherverwaltung, minimiert Latenzen und verbessert den Datenzugriff.

  • Optimierung für moderne Hardware: 3FS nutzt die Leistung von SSDs und RDMA-Netzwerken voll aus und ermöglicht Lesegeschwindigkeiten von bis zu 6.6 TiB/s in Clusterkonfigurationen mit 180 Knoten.
  • Parallele Architektur: Sein verteiltes Design erleichtert die Systemerweiterung ohne Kompromisse bei Stabilität oder Zugriffsgeschwindigkeit.
  • Basierend auf FUSE: Dadurch kann das System im Benutzerbereich ausgeführt werden, ohne dass der Linux-Kernel geändert werden muss, was die Implementierung und Kompatibilität mit verschiedenen Distributionen erleichtert.
  • Konzentrieren Sie sich auf die Lesegeschwindigkeit: Priorisierung des wahlfreien Lesens gegenüber der Zwischenspeicherung, was bei KI-Modellen, die sofortigen Zugriff auf große Datenmengen erfordern, von entscheidender Bedeutung ist.

Ein in realen Umgebungen getestetes System

DeepSeek verwendet 3FS seit 2019 auf seinen eigenen Servern und kann so seine Leistung in realen Situationen verbessern. In jüngsten Tests erreichte das System 3.66 TiB/min in Datensortierungs-Benchmarks und über 40 GiB/s pro Knoten für KVCache-Suchaufgaben.

Darüber hinaus wurde dieses System im Fire-Flyer 2-Cluster des Unternehmens verwendet, wo es eine Leistung ähnlich der von High-End-Servern wie dem NVIDIA DGX-A100 erreichte, jedoch zu deutlich geringeren Kosten. Nach den von dem Unternehmen vorgelegten Daten erreichten sie die 80 % der Leistung eines DGX-A100 bei 50 % seiner Kosten und 60 % seines Energieverbrauchs.

Ein Schub für das Open-Source-Ökosystem

Einer der auffälligsten Aspekte dieser Version ist, dass DeepSeek beschlossen hat, den 3FS-Code unter dem MIT-Lizenz, sodass die Entwickler-Community auf das System zugreifen, es ändern und an ihre eigenen Bedürfnisse anpassen kann. Diese Offenheitsstrategie ist Teil der Open Source Week-Initiative des Unternehmens, im Rahmen derer andere KI-bezogene Projekte veröffentlicht wurden.

Der Fire-Flyer File System Code ist verfügbar auf GitHub, wodurch es für Forscher und Unternehmen einfacher wird, sie einzuführen und ihre Arbeitsabläufe im Bereich künstliche Intelligenz und Hochleistungsrechnen zu optimieren.

Das Aufkommen von 3FS in der verteilten Dateisystemlandschaft bietet eine Alternative zu vorhandenen Lösungen wie Ceph, das in Benchmarktests bei kleineren Konfigurationen lediglich einen Lesedurchsatz von 1.1 TiB/s erreichte.

Mit dieser Produkteinführung unterstreicht DeepSeek sein Engagement für technologische Innovationen im Bereich der künstlichen Intelligenz. Durch das Angebot eines effizienten und kostengünstigen Speichersystems stärkt das Unternehmen seine Position in der Branche und stellt wichtige Tools für die Entwicklung neuer Modelle für maschinelles Lernen und fortschrittliche Computerberechnungen bereit.