LM Studio 0.4.0: Bản Cập Nhật Khủng Cho Dân Chạy AI Local!

Tin vui cho anh em hay chạy AI trên máy mình!

LM Studio vừa drop bản 0.4.0 vào ngày 28/01/2026 - và lần này họ làm lại gần như mọi thứ. Parallel requests, headless server, UI mới... Đây là bản cập nhật lớn nhất từ trước đến giờ.

Mình vừa upgrade xong và phải nói thật là khác biệt khá rõ. Cùng xem có gì hay ho nhé!

🆕 Có Gì Mới Trong 0.4.0?

Tóm tắt nhanh

Tính năng	Trước đây	0.4.0
Xử lý requests	Xếp hàng (queue)	Parallel + continuous batching
Chạy không GUI	Không được	✅ llmster daemon
llama.cpp	1.x	2.0.0
API	OpenAI compatible	+ Stateful REST API mới
Deploy	Chỉ desktop	Cloud, CI, Colab...

Đây không phải update nhỏ - họ đã rearchitect toàn bộ software.

⚡ Parallel Requests - Xử Lý Song Song

Đây là thay đổi lớn nhất.

Trước đây:

Mỗi request phải xếp hàng chờ
Request thứ 2 đợi request thứ 1 xong
Bottleneck khi nhiều người dùng

Bây giờ:

Continuous batching - nhiều requests xử lý cùng lúc
Throughput cao hơn đáng kể
Model serve được nhiều clients

Trước:  Request 1 → [Processing] → Done → Request 2 → [Processing] → Done

Sau:    Request 1 → [Processing ████████████] → Done
        Request 2 →   [Processing ████████████] → Done  
        Request 3 →     [Processing ████████████] → Done
                    (Chạy đồng thời!)

Điều này quan trọng nếu bạn dùng LM Studio làm backend cho app, hoặc có nhiều người trong team cùng query một model.

🖥️ llmster - Chạy Headless Không Cần GUI

Đây là tính năng mình thích nhất.

LM Studio giờ tách core engine thành tool riêng gọi là llmster - có thể chạy như daemon mà không cần mở app.

Use cases:

Deploy trên cloud server (không có màn hình)
Chạy trong CI/CD pipelines
Cài trên GPU rig remote
Dùng trong Google Colab

Cách sử dụng

# Khởi động daemon
lms daemon up

# Check status
lms status

# Chat qua CLI
lms chat

📖 Chi tiết tại CLI Documentation

CLI mới còn có slash commands - gõ / để xem các options.

🔧 llama.cpp Engine Upgrade

LM Studio upgrade lên phiên bản llama.cpp mới - đây là engine inference quan trọng nhất cho local LLM.

Những cải tiến:

Faster inference
Better memory management
Hỗ trợ models mới hơn
Continuous batching support

Nếu bạn dùng các models như Qwen3, Gemma3, hay DeepSeek - chúng sẽ chạy mượt hơn trên engine mới.

🔌 API Mới - Stateful REST

Ngoài OpenAI-compatible API cũ, giờ có thêm:

`/v1/chat` - Stateful Endpoint

import requests

# Tạo conversation mới
response = requests.post("http://localhost:1234/v1/chat", json={
    "messages": [{"role": "user", "content": "Hello!"}],
    "model": "your-model"
})

# Response giữ conversation state
conversation_id = response.json()["conversation_id"]

# Tiếp tục conversation
response = requests.post("http://localhost:1234/v1/chat", json={
    "conversation_id": conversation_id,
    "messages": [{"role": "user", "content": "Tell me more"}]
})

Ưu điểm:

Không cần gửi full history mỗi request
Server giữ context
Tiết kiệm bandwidth

API cũ vẫn hoạt động, nên code hiện tại không bị break.

🎨 UI Mới Refreshed

Giao diện cũng được làm mới:

Tính năng mới

Chat export - Xuất conversation ra file
Split view - Xem nhiều chat cùng lúc
Developer mode - Debug tools cho devs
In-app docs - Documentation ngay trong app

Model browser cải tiến

Tìm model nhanh hơn
Preview model info trước khi download
Quản lý local models dễ hơn

📋 Models Được Hỗ Trợ

LM Studio 0.4.0 hỗ trợ các model formats:

Format	Ví dụ models
GGUF	LLaMA, Mistral, Mixtral
Qwen3	Qwen3-7B, Qwen3-72B
Gemma3	Gemma3-2B, Gemma3-9B
DeepSeek	DeepSeek-Coder, DeepSeek-V3
GPT-OSS	Various open source GPT

Với llama.cpp 2.0, nhiều models mới nhất đã được support ngay từ đầu.

🚀 Cách Cập Nhật

Option 1: Auto-update

Mở LM Studio → Check updates → Install

Option 2: Fresh install

Tải từ lmstudio.ai → Cài đè bản cũ

📖 Xem chi tiết tại Release Notes 0.4.0

Option 3: CLI (nếu đã có)

# Trên macOS/Linux
lms update

# Hoặc download installer mới

⚠️ Lưu ý: Backup settings trước khi upgrade nếu bạn có nhiều custom configs.

💡 Khi Nào Nên Dùng LM Studio?

Phù hợp nếu bạn:

Muốn chạy AI privacy-first - data không đi đâu
Có GPU đủ mạnh (RTX 3060+ khuyến nghị)
Cần self-hosted API cho project
Thích thử nghiệm nhiều models khác nhau
Không muốn trả phí API cho OpenAI/Anthropic

Có thể chưa cần nếu:

GPU yếu hoặc không có
Chỉ dùng AI casual, API cloud đủ rồi
Cần scale lớn (dùng cloud inference tốt hơn)

🆚 So Với Các Tool Khác

Feature	LM Studio	Ollama	Text Gen WebUI
GUI	✅ Đẹp	❌ CLI only	✅ Web-based
Parallel requests	✅ 0.4.0	✅	✅
Headless mode	✅ llmster	✅ Native	⚠️ Limited
Ease of use	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐
Model browser	✅ Built-in	❌ Manual	⚠️ Basic
Cross-platform	✅ Win/Mac/Linux	✅	✅

LM Studio strongest point vẫn là ease of use - rất thân thiện với người mới.

⚠️ Những Điểm Cần Lưu Ý

1. RAM requirements (ước tính)

7B model: 8GB RAM minimum
13B model: 16GB RAM
70B model: 32GB+ RAM (hoặc quantized)

2. GPU VRAM

Quan trọng hơn RAM cho speed
8GB VRAM chạy được 7B-13B models
24GB VRAM cho 70B models

3. Disk space

Models khá nặng (3-40GB mỗi model)
Chuẩn bị SSD với nhiều space

✅ Kết Luận

LM Studio 0.4.0 là bản cập nhật đáng giá:

✅ Parallel requests - throughput cao hơn nhiều
✅ llmster daemon - deploy headless dễ dàng
✅ llama.cpp 2.0 - engine mới mạnh hơn
✅ API mới - stateful REST endpoint
✅ UI refreshed - giao diện đẹp và tiện hơn

Nếu bạn đang chạy AI local, đây là lúc để upgrade. Parallel requests alone đã đáng để update rồi.

Download: lmstudio.ai

Bạn đang dùng LM Studio chưa? Model nào chạy hay nhất với setup của bạn? Share nhé! 💬

LM Studio 0.4.0: Bản Cập Nhật Khủng Cho Dân Chạy AI Local!

🆕 Có Gì Mới Trong 0.4.0?

Tóm tắt nhanh

⚡ Parallel Requests - Xử Lý Song Song

🖥️ llmster - Chạy Headless Không Cần GUI

Cách sử dụng

🔧 llama.cpp Engine Upgrade

🔌 API Mới - Stateful REST

`/v1/chat` - Stateful Endpoint

🎨 UI Mới Refreshed

Tính năng mới

Model browser cải tiến

📋 Models Được Hỗ Trợ

🚀 Cách Cập Nhật

Option 1: Auto-update

Option 2: Fresh install

Option 3: CLI (nếu đã có)

💡 Khi Nào Nên Dùng LM Studio?

🆚 So Với Các Tool Khác

⚠️ Những Điểm Cần Lưu Ý

✅ Kết Luận

Tags

Discussion

Nhận bài viết mới mỗi tuần qua email nhé!

Chuyên mục phổ biến

Open Source

AI

Claude Code

🆕 Có Gì Mới Trong 0.4.0?

Tóm tắt nhanh

⚡ Parallel Requests - Xử Lý Song Song

🖥️ llmster - Chạy Headless Không Cần GUI

Cách sử dụng

🔧 llama.cpp Engine Upgrade

🔌 API Mới - Stateful REST

/v1/chat - Stateful Endpoint

🎨 UI Mới Refreshed

Tính năng mới

Model browser cải tiến

📋 Models Được Hỗ Trợ

🚀 Cách Cập Nhật

Option 1: Auto-update

Option 2: Fresh install

Option 3: CLI (nếu đã có)

💡 Khi Nào Nên Dùng LM Studio?

🆚 So Với Các Tool Khác

⚠️ Những Điểm Cần Lưu Ý

✅ Kết Luận

Tags

Discussion

Nhận bài viết mới mỗi tuần qua email nhé!

Chuyên mục phổ biến

Open Source

AI

Claude Code

`/v1/chat` - Stateful Endpoint