Nếu bạn đang build AI apps mà cần data từ web, bạn biết nỗi đau: scrape được HTML nhưng phải clean, xử lý JS-rendered content, bypass anti-bot, parse PDF... Firecrawl giải quyết hết.

Firecrawl là một API service lấy bất kỳ URL nào và convert thành clean markdown hoặc structured data - sẵn sàng feed vào LLM.

Core Features

Feature Mô tả
Scrape Lấy nội dung 1 URL → markdown, HTML, screenshot, structured data
Crawl Crawl toàn bộ subpages của website (không cần sitemap)
Map Lấy tất cả URLs của website cực nhanh
Search Tìm kiếm web và lấy full content từ kết quả
Extract Trích xuất structured data với AI từ 1 hoặc nhiều trang

Tại sao Firecrawl?

Xử lý "The Hard Stuff"

Đây là điểm khác biệt. Firecrawl xử lý được những thứ mà BeautifulSoup/Scrapy bó tay:

  • Proxies & Anti-bot bypass: Tự động xử lý
  • Dynamic content: JS-rendered pages (React, Vue, etc.)
  • Media parsing: PDF, DOCX, images
  • Actions: Click, scroll, input, wait trước khi extract

LLM-Ready Formats

Output options:

  • Clean Markdown (perfect cho RAG)
  • Structured data (JSON theo schema bạn define)
  • Screenshots
  • Raw HTML

Batching

Scrape hàng ngàn URLs cùng lúc với batch API. Có cả change tracking để monitor website updates.

SDKs & Integrations

Firecrawl tích hợp với hầu hết AI stack phổ biến:

SDKs:

  • Python, Node.js, Go, Rust

LLM Frameworks:

  • LangChain (Python & JS)
  • LlamaIndex
  • Crew.ai, Composio, PraisonAI

Low-code:

  • Dify, Langflow, Flowise AI

No-code:

  • Zapier, Pipedream

MCP Server: firecrawl-mcp-server

Quick Example

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="your-api-key")

# Scrape single URL
result = app.scrape_url("https://example.com")
print(result["markdown"])

# Crawl entire website
crawl_result = app.crawl_url("https://example.com")
for page in crawl_result["data"]:
    print(page["markdown"])

Self-Host vs Cloud

Option Pros Cons
Cloud (firecrawl.dev) Managed, scaling, no setup Costs money
Self-host Free, full control Cần maintain

Có thể đăng ký tại firecrawl.dev để lấy API key, hoặc clone repo và self-host.

Use Cases

  • RAG pipelines: Crawl docs, convert to markdown, embed
  • Competitive intelligence: Monitor competitor websites
  • Lead generation: Extract structured data từ business directories
  • Content aggregation: Build news/content datasets

Kết

Firecrawl đang khá hot trong cộng đồng - đặc biệt khi kết hợp với LangChain, LangGraph để build automation systems. 135 contributors và 31 releases cho thấy project đang active.

Nếu bạn đang làm gì liên quan đến web data + AI, đây là tool đáng thử.

Links: