ΠΠΎΠΈΡΠΊ Π½Π° ΠΠ²ΠΈΡΠΎ: ΠΎΡ ΡΠ΅ΠΊΡΡΠ° ΠΊ ΠΌΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½ΠΎΡΡΠΈ
ΠΠ»ΡΡΠ΅Π²ΡΠ΅ ΡΠ΅Π·ΠΈΡΡ:
ΠΠ²ΠΈΡΠΎ ΠΎΠ±ΠΎΠ³Π°ΡΠ°Π΅Ρ ΡΠ΅ΠΊΡΡΠΎΠ²ΡΠΉ ΠΏΠΎΠΈΡΠΊ LLM-ΠΎΠΏΠΈΡΠ°Π½ΠΈΡΠΌΠΈ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ, ΡΠ³Π΅Π½Π΅ΡΠΈΡΠΎΠ²Π°Π½Π½ΡΠΌΠΈ ΠΏΠΎ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡΠΌ
Π Π΅ΡΠ΅Π½ΠΈΠ΅ ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΎ Π½Π° ΡΠΈΠΏΠΎΠ²ΠΎΠΉ ΠΌΠΈΠΊΡΠΎΡΠ΅ΡΠ²ΠΈΡΠ½ΠΎΠΉ Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ΅ Ρ Π°ΡΠΈΠ½Ρ
ΡΠΎΠ½Π½ΠΎΠΉ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΎΠΉ
ΠΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½Π° ΠΌΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ Avision (Π½Π° Π±Π°Π·Π΅ Qwen) Ρ LoRA-Π°Π΄Π°ΠΏΡΠ΅ΡΠ°ΠΌΠΈ Π΄Π»Ρ ΡΠ°Π·Π½ΡΡ
ΠΊΠ°ΡΠ΅Π³ΠΎΡΠΈΠΉ
Π€ΡΠ΅ΠΉΠΌΠ²ΠΎΡΠΊ vLLM Ρ continuous batching ΠΎΠ±Π΅ΡΠΏΠ΅ΡΠΈΠ²Π°Π΅Ρ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΡΠΉ inference
Π‘ΠΈΡΡΠ΅ΠΌΠ° ΠΎΠ±ΡΠ°Π±Π°ΡΡΠ²Π°Π΅Ρ 20 ΠΌΠ»Π½ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ Π² Π΄Π΅Π½Ρ Π½Π° 230 ΠΌΠ»Π½ Π°ΠΊΡΠΈΠ²Π½ΡΡ
ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ
ΠΠΎΠ½ΡΠ΅ΠΊΡΡ ΠΠ²ΠΈΡΠΎ
ΠΠ°ΡΡΡΠ°Π±Ρ ΠΏΠ»Π°ΡΡΠΎΡΠΌΡ
- 230 ΠΌΠ»Π½ Π°ΠΊΡΠΈΠ²Π½ΡΡ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ Π² ΠΏΠΎΠΈΡΠΊΠΎΠ²ΡΡ ΠΈΠ½Π΄Π΅ΠΊΡΠ°Ρ
- 20 ΠΌΠ»Π½ Π½ΠΎΠ²ΡΡ ΠΈΠ»ΠΈ ΠΈΠ·ΠΌΠ΅Π½ΡΠ½Π½ΡΡ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ Π² Π΄Π΅Π½Ρ
- 4 ΠΌΠ»Π½ ΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΠ΅Π»Π΅ΠΉ ΠΈΡΡΡ ΡΡΠΎ-ΡΠΎ Π΅ΠΆΠ΅Π΄Π½Π΅Π²Π½ΠΎ
- 60 ΠΌΠ»Π½ ΠΏΠΎΠΈΡΠΊΠΎΠ²ΡΡ Π·Π°ΠΏΡΠΎΡΠΎΠ² Π² Π΄Π΅Π½Ρ
ΠΡΠΎΠ±Π»Π΅ΠΌΠ°: Π½Π΅ΠΏΠΎΠ»Π½ΠΎΡΠ° ΡΠ΅ΠΊΡΡΠΎΠ²ΠΎΠ³ΠΎ ΠΏΠΎΠΈΡΠΊΠ°
ΠΡΠΈΠΌΠ΅Ρ: Π·Π°ΠΏΡΠΎΡ "ΠΊΡΠ΅ΡΠ»ΠΎ ΠΠΎΠ½Π΄ΠΎΠ½Π°" Π½Π΅ Π½Π°Ρ ΠΎΠ΄ΠΈΡ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠ΅ "ΠΊΡΠ΅ΡΠ»ΠΎ-ΠΌΠ΅ΡΠΎΠΊ" Ρ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅ΠΌ, Ρ ΠΎΡΡ Π½Π° ΠΊΠ°ΡΡΠΈΠ½ΠΊΠ΅ Π²ΠΈΠ΄Π½Ρ ΡΠΈΠΌΠ²ΠΎΠ»Ρ ΠΠΎΠ½Π΄ΠΎΠ½Π°. ΠΡΠΈΡΠΈΠ½Π° β ΡΠ΅ΠΊΡΡΠΎΠ²ΡΠΉ ΠΏΠΎΠΈΡΠΊ ΡΡΠ΅Π±ΡΠ΅Ρ ΠΏΠΎΠ»Π½ΠΎΠ³ΠΎ ΡΠΎΠ²ΠΏΠ°Π΄Π΅Π½ΠΈΡ Π²ΡΠ΅Ρ ΡΠ»ΠΎΠ² Π² Π½Π°Π·Π²Π°Π½ΠΈΠΈ ΠΈ ΠΎΠΏΠΈΡΠ°Π½ΠΈΠΈ.
ΠΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ° ΡΠ΅ΡΠ΅Π½ΠΈΡ
ΠΠ΅ΡΡ Π½Π΅ΡΡΠΎΠ²Π½Π΅Π²ΡΠΉ ΠΏΠΎΡΠΎΠΊ
- ΠΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠ΅ ΡΠΎΠ·Π΄Π°ΡΡΡΡ β ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ Π² Π±Π°Π·Ρ Π΄Π°Π½Π½ΡΡ
- ΠΠ°Ρ ΡΠ΅ΡΠ²ΠΈΡ Π³Π΅Π½Π΅ΡΠΈΡΡΠ΅Ρ LLM-ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ ΠΏΠΎ ΠΊΠ°ΡΡΠΈΠ½ΠΊΠ°ΠΌ
- Π Π΅Π·ΡΠ»ΡΡΠ°Ρ ΠΎΡΠΏΡΠ°Π²Π»ΡΠ΅ΡΡΡ Π² Redis
- Π‘Π΅ΡΠ²ΠΈΡ A ΠΏΠΎΠ»ΡΡΠ°Π΅Ρ ΡΠ²Π΅Π΄ΠΎΠΌΠ»Π΅Π½ΠΈΠ΅ ΠΈ ΠΎΠ±ΠΎΠ³Π°ΡΠ°Π΅Ρ ΠΏΠΎΠΈΡΠΊΠΎΠ²ΡΠΉ ΠΈΠ½Π΄Π΅ΠΊΡ
- ΠΠΎΠΈΡΠΊ ΡΠ΅ΠΏΠ΅ΡΡ ΠΈΡΠ΅Ρ ΠΏΠΎ ΡΡΡΠΌ ΠΏΠΎΠ»ΡΠΌ: title, description, LM description
ΠΠΎΠΌΠΏΠΎΠ½Π΅Π½ΡΡ ΠΌΠΈΠΊΡΠΎΡΠ΅ΡΠ²ΠΈΡΠ°
Worker 1: Π€ΠΈΠ»ΡΡΡΠ°ΡΠΈΡ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ
- Π‘Π»ΡΡΠ°Π΅Ρ ΡΠΎΠ±ΡΡΠΈΡ ΡΠΎΠ·Π΄Π°Π½ΠΈΡ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ
- Π€ΠΈΠ»ΡΡΡΡΠ΅Ρ ΠΏΠΎ ΠΊΠ°ΡΠ΅Π³ΠΎΡΠΈΡΠΌ (Π½Π΅ Π²ΡΠ΅ ΠΊΠ°ΡΠ΅Π³ΠΎΡΠΈΠΈ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°ΡΡ ΡΠΈΡΡ)
- ΠΡΠΎΠ²Π΅ΡΡΠ΅Ρ Π½Π°Π»ΠΈΡΠΈΠ΅ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ
- ΠΠ»Π°Π΄ΡΡ Π² KAS (ΠΎΡΠ΅ΡΠ΅Π΄Ρ) ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΡ Ρ title ΠΈ ID ΠΊΠ°ΡΡΠΈΠ½ΠΎΠΊ
Worker 2: ΠΡΡΠ»Π΅ΠΆΠΈΠ²Π°Π½ΠΈΠ΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ
- Π‘Π»ΡΡΠ°Π΅Ρ ΡΠΎΠ±ΡΡΠΈΡ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΡ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ
- ΠΠ΅ΡΠ΅Π³Π΅Π½Π΅ΡΠΈΡΡΠ΅Ρ ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ ΠΏΡΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΈ ΡΠ΅ΠΊΡΡΠ°, ΠΊΠ°ΡΡΠΈΠ½ΠΎΠΊ ΠΈΠ»ΠΈ ΠΊΠ°ΡΠ΅Π³ΠΎΡΠΈΠΈ
- ΠΡΠΏΡΠ°Π²Π»ΡΠ΅Ρ Π² KAS
Worker 3: LLM-ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ° (Π³Π»Π°Π²Π½ΡΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ)
- ΠΠ½ΠΈΡΠΈΠ°Π»ΠΈΠ·ΠΈΡΡΠ΅Ρ LLM-ΠΌΠΎΠ΄Π΅Π»Ρ ΠΏΡΠΈ ΡΡΠ°ΡΡΠ΅
- ΠΠ΅ΡΡΡ Π±Π°ΡΡ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ ΠΈΠ· KAS
- Π‘ΠΊΠ°ΡΠΈΠ²Π°Π΅Ρ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ ΠΈΠ· ΠΌΠΈΠΊΡΠΎΡΠ΅ΡΠ²ΠΈΡΠΎΠ²
- ΠΠΎΡΠΎΠ²ΠΈΡ ΠΏΡΠΎΠΌΡ Ρ title ΠΈ ΠΊΠ°ΡΡΠΈΠ½ΠΊΠ°ΠΌΠΈ
- ΠΡΠΏΡΠ°Π²Π»ΡΠ΅Ρ Π² LLM
- ΠΠΎΡΡΠΏΡΠΎΡΠ΅ΡΡΠΈΠ½Π³ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠ°
- Π‘ΠΎΡ ΡΠ°Π½ΡΠ΅Ρ Π² Redis
- ΠΡΠΏΡΠ°Π²Π»ΡΠ΅Ρ ΡΠ²Π΅Π΄ΠΎΠΌΠ»Π΅Π½ΠΈΠ΅ Π² Π±Π°Π·Ρ Π΄Π°Π½Π½ΡΡ
Cron Job: ΠΠΎΡΡΡΠ°Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅ ΠΏΠΎΠΊΡΡΡΠΈΡ
- ΠΠΎΡΡΡ Π·Π°ΠΏΡΡΠΊΠ°Π΅ΡΡΡ
- ΠΠ°ΠΏΡΠ°ΡΠΈΠ²Π°Π΅Ρ Ρ ΠΏΠΎΠΈΡΠΊΠΎΠ²ΠΎΠ³ΠΎ Π΄Π²ΠΈΠΆΠΊΠ° ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΡ Π±Π΅Π· LM-ΠΎΠΏΠΈΡΠ°Π½ΠΈΡ
- ΠΠ°Π³ΡΡΠΆΠ°Π΅Ρ ΠΈΡ Π² KAS Π΄Π»Ρ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ
- ΠΠΎΡΡΡΠ°Π½Π°Π²Π»ΠΈΠ²Π°Π΅Ρ ΠΏΠΎΡΠ΅ΡΡΠ½Π½ΡΠ΅ ΠΎΠΏΠΈΡΠ°Π½ΠΈΡ Π·Π° 1,5β2 ΡΠ°ΡΠ°
API
- ΠΡΠΎΡΡΠΎΠΉ endpoint: ΠΏΡΠΈΠ½ΠΈΠΌΠ°Π΅Ρ ID ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ β Π²ΠΎΠ·Π²ΡΠ°ΡΠ°Π΅Ρ LM-ΠΎΠΏΠΈΡΠ°Π½ΠΈΡ
ML-ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½ΡΡ
ΠΠΎΠ΄Π΅Π»Ρ: Avision
- ΠΡΠ½ΠΎΠ²Π°Π½Π° Π½Π° Qwen, Π΄ΠΎΠΎΠ±ΡΡΠ΅Π½Π° Π½Π° Π΄Π°Π½Π½ΡΡ ΠΠ²ΠΈΡΠΎ
- ΠΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½Π°Ρ (ΡΠ°Π±ΠΎΡΠ°Π΅Ρ Ρ ΡΠ΅ΠΊΡΡΠΎΠΌ ΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡΠΌΠΈ)
- ΠΡΠΊΡΡΡΠ° Π² Open Source Π½Π° Hugging Face
ΠΠ΅ΡΡΠΈΠΊΠΈ ΡΠ»ΡΡΡΠ΅Π½ΠΈΡ:
BERT Score (ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΡΠ°Π»ΡΠ½Π°Ρ Π±Π»ΠΈΠ·ΠΎΡΡΡ): +5β6%
MMLU Questions (Π·Π½Π°Π½ΠΈΡ Π² ΡΠ°Π·Π½ΡΡ
ΠΎΠ±Π»Π°ΡΡΡΡ
): ΠΏΡΠΈΡΠΎΡΡ
Real World Questions (ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΡΠ΅Π°Π»ΡΠ½ΡΡ
ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ²): ΠΏΡΠΈΡΠΎΡΡ
Π‘ΠΊΠΎΡΠΎΡΡΡ inference: ΡΠ»ΡΡΡΠ΅Π½Π° Π·Π° ΡΡΡΡ Π΄ΠΎΠΎΠ±ΡΡΠ΅Π½Π½ΠΎΠ³ΠΎ ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΎΡΠ°
Π’ΡΠ½ΠΈΠ½Π³: LoRA-Π°Π΄Π°ΠΏΡΠ΅ΡΡ
ΠΡΠΎΠ±Π»Π΅ΠΌΠ°: ΠΏΠΎΠ»Π½ΡΠΉ fine-tuning 7 ΠΌΠ»ΡΠ΄ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² β ΡΠ»ΠΈΡΠΊΠΎΠΌ Π΄ΠΎΡΠΎΠ³ΠΎ
Π Π΅ΡΠ΅Π½ΠΈΠ΅: Parameter-Efficient Fine-Tuning (PEFT)
- ΠΠ°ΠΌΠΎΡΠ°ΠΆΠΈΠ²Π°Π΅ΠΌ Π²ΡΠ΅ ΡΠ»ΠΎΠΈ ΠΈΡΡ ΠΎΠ΄Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ
- ΠΠΎΠ±Π°Π²Π»ΡΠ΅ΠΌ Π½ΠΎΠ²ΡΠ΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΡ (~0,1β1% ΠΎΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ)
- Π’ΡΠ½ΠΈΠΌ ΡΠΎΠ»ΡΠΊΠΎ Π½ΠΎΠ²ΡΠ΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΡ
ΠΡΠ΅ΠΈΠΌΡΡΠ΅ΡΡΠ²Π°:
ΠΠ΅ Π»ΠΎΠΌΠ°Π΅ΠΌ ΠΈΡΡ
ΠΎΠ΄Π½ΡΡ ΠΌΠΎΠ΄Π΅Π»Ρ
ΠΠ΅Π½ΡΡΠ΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² = Π±ΡΡΡΡΠ΅Π΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅
ΠΡΠ΄Π΅Π»ΡΠ½ΡΠΉ Π°Π΄Π°ΠΏΡΠ΅Ρ Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΠ°ΡΠ΅Π³ΠΎΡΠΈΠΈ ΠΠ²ΠΈΡΠΎ
Π€ΡΠ΅ΠΉΠΌΠ²ΠΎΡΠΊ: vLLM
ΠΠΎΡΠ΅ΠΌΡ Π½ΡΠΆΠ΅Π½ ΡΡΠ΅ΠΉΠΌΠ²ΠΎΡΠΊ:
- ΠΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΠ΅ ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡΡΡ
- ΠΠ°ΡΡΠΈΠ½Π³ Π·Π°ΠΏΡΠΎΡΠΎΠ²
- ΠΠ°ΡΠ°Π»Π»Π΅Π»ΡΠ½ΠΎΠ΅ Π²ΡΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ Π½Π° Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΡ GPU
- ΠΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΡ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΠΉ (matrix multiply, softmax, attention)
ΠΠ»ΡΡΠ΅Π²ΡΠ΅ ΠΈΠ½Π½ΠΎΠ²Π°ΡΠΈΠΈ vLLM:
Page Attention β Π²ΠΈΡΡΡΠ°Π»ΡΠ½Π°Ρ ΠΏΠ°ΠΌΡΡΡ Π΄Π»Ρ KV-ΠΊΡΡΠ°
- ΠΠ΄Π΅Ρ ΠΈΠ· Virtual Memory: Π°Π±ΡΡΡΠ°ΠΊΡΠ½ΡΠΉ ΡΠ»ΠΎΠΉ Π°Π΄ΡΠ΅ΡΠΎΠ² Π²ΠΌΠ΅ΡΡΠΎ ΡΠ΅Π°Π»ΡΠ½ΡΡ
- ΠΡΡΡΠ΅ ΡΠΏΡΠ°Π²Π»ΡΠ΅Ρ ΡΡΠ°Π³ΠΌΠ΅Π½ΡΠ°ΡΠΈΠ΅ΠΉ
- ΠΠΊΠΎΠ½ΠΎΠΌΠΈΡ ΠΏΠ°ΠΌΡΡΡ ΠΈ ΡΡΠΊΠΎΡΡΠ΅Ρ inference
Continuous Batching β Π΄ΠΈΠ½Π°ΠΌΠΈΡΠ΅ΡΠΊΠΎΠ΅ ΠΏΠ΅ΡΠ΅ΡΠΎΡΠΌΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ Π±Π°ΡΡΠ΅ΠΉ
- Π‘ΡΠ°ΡΠΈΡΠ΅ΡΠΊΠΈΠΉ Π±Π°ΡΡΠΈΠ½Π³ (ΡΡΠ°ΡΡΠΉ ΠΏΠΎΠ΄Ρ ΠΎΠ΄): ΠΆΠ΄ΡΡΡ, ΠΏΠΎΠΊΠ° Π²ΡΠ΅ Π·Π°ΠΏΡΠΎΡΡ Π² Π±Π°ΡΡΠ΅ Π·Π°Π²Π΅ΡΡΠ°ΡΡΡ
- Continuous batching: ΠΊΠ°ΠΊ ΡΠΎΠ»ΡΠΊΠΎ Π·Π°ΠΏΡΠΎΡ Π³ΠΎΡΠΎΠ² (end of sequence), ΠΎΡΠΏΡΠ°Π²Π»ΡΠ΅ΡΡ ΠΊΠ»ΠΈΠ΅Π½ΡΡ ΠΈ Π΄ΠΎΠ±Π°Π²Π»ΡΠ΅ΡΡ Π½ΠΎΠ²ΡΠΉ Π·Π°ΠΏΡΠΎΡ Π² Π±Π°ΡΡ
- Π Π΅Π·ΡΠ»ΡΡΠ°Ρ: Π΄ΠΈΠ½Π°ΠΌΠΈΡΠ½Π΅Π΅, Π±ΡΡΡΡΠ΅Π΅, Π»ΡΡΡΠ΅ ΡΡΠΈΠ»ΠΈΠ·Π°ΡΠΈΡ GPU
Prefix Caching β ΠΊΡΡΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΡΡ ΠΏΡΠ΅ΡΠΈΠΊΡΠΎΠ²
- ΠΡΠ»ΠΈ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ Π·Π°ΠΏΡΠΎΡΠΎΠ² Π½Π°ΡΠΈΠ½Π°ΡΡΡΡ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ, ΠΊΡΡΠΈΡΡΠ΅ΠΌ ΠΏΡΠ΅ΡΠΈΠΊΡ
- ΠΠΊΠΎΠ½ΠΎΠΌΠΈΠΌ Π½Π° ΠΏΠ΅ΡΠ΅ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ΅ ΡΠΈΡΡΠ΅ΠΌΠ½ΡΡ ΠΏΡΠΎΠΌΡΠΎΠ²
ΠΠ½ΡΡΠ°ΡΡΡΡΠΊΡΡΡΠ°
Π Π΅ΡΡΡΡΡ
- 3 Π΄Π°ΡΠ°-ΡΠ΅Π½ΡΡΠ°
- 7 Π½ΠΎΠ΄ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Ρ GPU
- GPU: A100 80GB (ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ Π·Π°ΠΏΡΡΠΊΠ°ΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π΄ΠΎ 40 ΠΌΠ»ΡΠ΄ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ²)
- ΠΡΠ» Π²ΡΠ΄Π΅Π»Π΅Π½ ΡΠΏΠ΅ΡΠΈΠ°Π»ΡΠ½ΠΎ Π΄Π»Ρ ΡΡΠΎΠ³ΠΎ ΡΠ΅ΡΠ΅Π½ΠΈΡ
Π₯Π°ΡΠ°ΠΊΡΠ΅Ρ Π½Π°Π³ΡΡΠ·ΠΊΠΈ
ΠΡΡΠ»Π°ΠΉΠ½ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ° (Π½Π΅ ΠΊΡΠΈΡΠΈΡΠ½Π° ΡΠΊΠΎΡΠΎΡΡΡ ΠΎΡΠ²Π΅ΡΠ°)- ΠΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΠ΅Π»Ρ Π½Π΅ Π²ΠΈΠ΄ΠΈΡ LM-ΠΎΠΏΠΈΡΠ°Π½ΠΈΡ Π² UI
- Π Π°Π±ΠΎΡΠ°Π΅Ρ Π² ΡΠΎΠ½Π΅ ΠΊΠ°ΠΊ Π΄Π΅ΠΌΠΎΠ½
ΠΠΎΠ½ΠΈΡΠΎΡΠΈΠ½Π³ ΠΈ ΠΌΠ΅ΡΡΠΈΠΊΠΈ
ΠΠ»ΡΡΠ΅Π²ΡΠ΅ ΠΌΠ΅ΡΡΠΈΠΊΠΈ
ΠΠΎΠΊΡΡΡΠΈΠ΅ LM-ΠΎΠΏΠΈΡΠ°Π½ΠΈΡΠΌΠΈ
- ΠΡΠΎΡΠ΅Π½Ρ Π°ΠΊΡΠΈΠ²Π½ΡΡ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ Ρ LM-ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ΠΌ
- Π‘ΡΡΠ΅ΠΌΠΈΡΡΡ ΠΊ 100%
- ΠΠ΅ΡΠΈΠΎΠ΄ΠΈΡΠ΅ΡΠΊΠΈ ΠΏΠ°Π΄Π°Π΅Ρ Π½Π° Π΄ΠΎΠ»ΠΈ ΠΏΡΠΎΡΠ΅Π½ΡΠ° (ΠΈΡΡΠΎΡΠ½ΠΈΠΊΠΈ ΠΏΠΎΡΠ΅ΡΡ)
Π‘ΠΎΡΡΠΎΡΠ½ΠΈΠ΅ ΠΎΡΠ΅ΡΠ΅Π΄Π΅ΠΉ (KAS)
- ΠΠ΅ Π΄ΠΎΠ»ΠΆΠ½Ρ ΡΠΊΠ°ΠΏΠ»ΠΈΠ²Π°ΡΡΡΡ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΡ
- Π₯Π°ΡΠ°ΠΊΡΠ΅ΡΠ½ΡΠΉ ΠΏΠΈΠΊ Π½ΠΎΡΡΡ: ~150k ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ (ΡΡΠ°Π±Π°ΡΡΠ²Π°Π΅Ρ Cron Job)
- Π Π°Π·Π³ΡΠ΅Π±Π°Π΅ΡΡΡ Π·Π° 1,5 ΡΠ°ΡΠ°
Π‘ΠΊΠΎΡΠΎΡΡΡ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ
- ~1000 ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ/ΠΌΠΈΠ½ΡΡΡ Π½Π° 3 Π½ΠΎΠ΄Π°Ρ
- ΠΠ΄Π½ΠΎ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠ΅ = title + 3 ΠΊΠ°ΡΡΠΈΠ½ΠΊΠΈ
GPU Utilization
- ΠΠ±ΠΎΠ±ΡΡΠ½Π½Π°Ρ ΠΌΠ΅ΡΡΠΈΠΊΠ° (Π½Π΅ Π²ΡΠ΅Π³Π΄Π° ΠΎΡΡΠ°ΠΆΠ°Π΅Ρ ΠΏΠΎΠ»Π΅Π·Π½ΡΡ ΡΠ°Π±ΠΎΡΡ)
- ΠΠ½ΠΎΠ³Π΄Π° ΠΏΠ°Π΄Π°Π΅Ρ Π² Π½ΠΎΠ»Ρ β ΡΠΎΡΠΊΠ° ΡΠΎΡΡΠ° Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΡ
- ΠΡΠΈΡΠΈΠ½Π°: ΠΏΠΎΠ΄Π³ΠΎΡΠΎΠ²ΠΊΠ° ΠΏΡΠΎΠΌΡΠ° (ΡΠΊΠ°ΡΠΈΠ²Π°Π½ΠΈΠ΅ ΠΊΠ°ΡΡΠΈΠ½ΠΎΠΊ) Π·Π°Π½ΠΈΠΌΠ°Π΅Ρ ΠΌΠ½ΠΎΠ³ΠΎ Π²ΡΠ΅ΠΌΠ΅Π½ΠΈ, Π·Π°Π΄Π΅ΡΠΆΠΈΠ²Π°Π΅Ρ ΠΎΡΠΏΡΠ°Π²ΠΊΡ Π² vLLM
ΠΡΠ²ΠΎΠ΄Ρ
Π ΡΠ΅ΠΊΡΡΠΎΠ²ΠΎΠΌ ΠΏΠΎΠΈΡΠΊΠ΅
- ΠΠ²ΠΈΡΠΎ ΠΈΡΡΠΎΡΠΈΡΠ΅ΡΠΊΠΈ ΡΠΈΠ»ΡΠ½ Π² ΡΠ΅ΠΊΡΡΠΎΠ²ΠΎΠΌ ΠΏΠΎΠΈΡΠΊΠ΅ β ΡΡΠΎΡ ΡΠΊΠΈΠ»Π» Π½Π΅ ΡΠ΅ΡΡΠ΅ΠΌ
- ΠΠ΅Π½Π΅ΡΠ°ΡΠΈΡ ΡΠ΅ΠΊΡΡΠ° ΠΈΠ· ΠΊΠ°ΡΡΠΈΠ½ΠΎΠΊ Π΄Π°ΡΡ Π±ΡΡΡΡΡΡ ΡΠΎΡΠΊΡ Π²Ρ ΠΎΠ΄Π° Π² ΡΡΡΠ΅ΡΡΠ²ΡΡΡΡΡ ΠΈΠ½ΡΡΠ°ΡΡΡΡΠΊΡΡΡΡ
- ΠΠ΅ΠΊΡΠΎΡΠ½ΡΠΉ ΠΏΠΎΠΈΡΠΊ Π²Π½Π΅Π΄ΡΡΠ΅ΡΡΡ ΠΏΠ°ΡΠ°Π»Π»Π΅Π»ΡΠ½ΠΎ, Π½ΠΎ ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡΠΎΠ²Π°Π½Π½ΡΠ΅ ΠΏΠΎΠ΄Ρ ΠΎΠ΄Ρ ΠΌΠΎΠ³ΡΡ Π±ΡΡΡ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½Π΅Π΅
Π Π±ΡΠΊΡΠ½Π΄-Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ΅
Π’ΠΈΠΏΠΎΠ²Π°Ρ ΠΌΠΈΠΊΡΠΎΡΠ΅ΡΠ²ΠΈΡΠ½Π°Ρ Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ° (ΡΠΈΠΏΠΎΠ²ΡΠ΅ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½ΡΡ ΠΠ²ΠΈΡΠΎ)
ΠΡΠΏΠΎΠ»ΡΠ·ΡΠ΅Ρ Π³ΠΎΡΠΎΠ²ΡΠ΅ ΡΡΠ΅ΠΉΠΌΠ²ΠΎΡΠΊΠΈ ΠΈ ΠΌΠ΅ΡΡΠΈΠΊΠΈ
ΠΠΎΠ½Ρ ΡΠΎΡΡΠ°:- ΠΡΠ½Π΅ΡΡΠΈ LLM Π² ΠΎΡΠ΄Π΅Π»ΡΠ½ΡΠΉ ΡΠ΅ΡΠ²ΠΈΡ (ΠΎΡΠ΄Π΅Π»ΠΈΡΡ inference ΠΎΡ ΠΏΠΎΠ΄Π³ΠΎΡΠΎΠ²ΠΊΠΈ Π΄Π°Π½Π½ΡΡ )
- Π£Π±ΡΠ°ΡΡ Cron Job, Π½Π°ΠΉΡΠΈ ΠΈΡΡΠΎΡΠ½ΠΈΠΊ ΠΏΠΎΡΠ΅ΡΡ ΠΎΠ±ΡΡΠ²Π»Π΅Π½ΠΈΠΉ
- ΠΠΏΡΠΈΠΌΠΈΠ·ΠΈΡΠΎΠ²Π°ΡΡ ΠΏΠΎΠ΄Π³ΠΎΡΠΎΠ²ΠΊΡ ΠΏΡΠΎΠΌΡΠ° (ΡΠΊΠ°ΡΠΈΠ²Π°Π½ΠΈΠ΅ ΠΊΠ°ΡΡΠΈΠ½ΠΎΠΊ