Nếu bạn đang build AI apps mà cần data từ web, bạn biết nỗi đau: scrape được HTML nhưng phải clean, xử lý JS-rendered content, bypass anti-bot, parse PDF... Firecrawl giải quyết hết.
Firecrawl là một API service lấy bất kỳ URL nào và convert thành clean markdown hoặc structured data - sẵn sàng feed vào LLM.
Core Features
| Feature | Mô tả |
|---|---|
| Scrape | Lấy nội dung 1 URL → markdown, HTML, screenshot, structured data |
| Crawl | Crawl toàn bộ subpages của website (không cần sitemap) |
| Map | Lấy tất cả URLs của website cực nhanh |
| Search | Tìm kiếm web và lấy full content từ kết quả |
| Extract | Trích xuất structured data với AI từ 1 hoặc nhiều trang |
Tại sao Firecrawl?
Xử lý "The Hard Stuff"
Đây là điểm khác biệt. Firecrawl xử lý được những thứ mà BeautifulSoup/Scrapy bó tay:
- Proxies & Anti-bot bypass: Tự động xử lý
- Dynamic content: JS-rendered pages (React, Vue, etc.)
- Media parsing: PDF, DOCX, images
- Actions: Click, scroll, input, wait trước khi extract
LLM-Ready Formats
Output options:
- Clean Markdown (perfect cho RAG)
- Structured data (JSON theo schema bạn define)
- Screenshots
- Raw HTML
Batching
Scrape hàng ngàn URLs cùng lúc với batch API. Có cả change tracking để monitor website updates.

SDKs & Integrations
Firecrawl tích hợp với hầu hết AI stack phổ biến:
SDKs:
- Python, Node.js, Go, Rust
LLM Frameworks:
- LangChain (Python & JS)
- LlamaIndex
- Crew.ai, Composio, PraisonAI
Low-code:
- Dify, Langflow, Flowise AI
No-code:
- Zapier, Pipedream
MCP Server: firecrawl-mcp-server
Quick Example
from firecrawl import FirecrawlApp
app = FirecrawlApp(api_key="your-api-key")
# Scrape single URL
result = app.scrape_url("https://example.com")
print(result["markdown"])
# Crawl entire website
crawl_result = app.crawl_url("https://example.com")
for page in crawl_result["data"]:
print(page["markdown"])
Self-Host vs Cloud
| Option | Pros | Cons |
|---|---|---|
| Cloud (firecrawl.dev) | Managed, scaling, no setup | Costs money |
| Self-host | Free, full control | Cần maintain |
Có thể đăng ký tại firecrawl.dev để lấy API key, hoặc clone repo và self-host.
Use Cases
- RAG pipelines: Crawl docs, convert to markdown, embed
- Competitive intelligence: Monitor competitor websites
- Lead generation: Extract structured data từ business directories
- Content aggregation: Build news/content datasets
Kết
Firecrawl đang khá hot trong cộng đồng - đặc biệt khi kết hợp với LangChain, LangGraph để build automation systems. 135 contributors và 31 releases cho thấy project đang active.
Nếu bạn đang làm gì liên quan đến web data + AI, đây là tool đáng thử.
Links:
- GitHub: github.com/firecrawl/firecrawl
- Website: firecrawl.dev
- Docs: docs.firecrawl.dev
- MCP Server: github.com/firecrawl/firecrawl-mcp-server
Discussion