Giới thiệu

Bạn đã bao giờ mơ ước về một trợ lý AI không chỉ biết chat mà còn có thể thực sự thay bạn mở ứng dụng, soạn thảo văn bản hay thậm chí là đặt vé máy bay trực tiếp trên máy tính? Vấn đề lớn nhất hiện nay là làm sao để AI tương tác với giao diện người dùng (GUI) một cách an toàn và chính xác.

Đó chính là lý do Cua ra đời. Đây là một cơ sở hạ tầng mã nguồn mở toàn diện dành cho các Computer-Use Agents. Dự án cung cấp các môi trường sandbox, SDK và bộ benchmark để huấn luyện cũng như đánh giá các AI agent có khả năng điều khiển hoàn toàn máy tính (macOS, Linux, Windows).

Với hơn 12,400 stars trên GitHub, Cua đang trở thành một trong những công cụ hot nhất trong cộng đồng AI Agent hiện nay.

Tính năng nổi bật

  • cuabot Sandbox: Tạo ra một môi trường cô lập an toàn để chạy các agent như Claude Code. Các cửa sổ ứng dụng hiển thị trực tiếp trên desktop của bạn với độ trễ thấp (H.265).
  • Hỗ trợ đa nền tảng: Không chỉ dừng lại ở Linux, Cua hỗ trợ mạnh mẽ cho cả Windows và đặc biệt là macOS (thông qua framework ảo hóa Lume).
  • SDK mạnh mẽ: Cung cấp các thư viện Python để agent có thể "nhìn" màn hình, click chuột và thực thi code một cách tự trị.
  • Cua-Bench: Một hệ thống đánh giá chuyên sâu giúp bạn kiểm tra năng lực của agent trên các bộ dữ liệu chuẩn như OSWorld hay Windows Arena.
  • Tích hợp sẵn: Hỗ trợ tốt cho các thiết bị di động (iOS, Android) và các trình duyệt web.

Cài đặt

Cách nhanh nhất để trải nghiệm Cua là thông qua công cụ cuabot. Bạn có thể khởi tạo môi trường sandbox chỉ với một câu lệnh:

\`\`\`bash npx cuabot \`\`\`

Nếu bạn muốn phát triển ứng dụng bằng Python, bạn có thể cài đặt SDK của Cua (yêu cầu Python 3.12+):

\`\`\`bash pip install cua-agent cua-computer \`\`\`

Hướng dẫn sử dụng

Sử dụng cuabot để chạy Agent

Bạn có thể chạy trực tiếp một agent trong môi trường sandbox của cuabot để thực hiện các tác vụ GUI:

\`\`\`bash

Chạy Claude Code trong sandbox

cuabot claude

Thực hiện các thao tác GUI cơ bản

cuabot --click 500 500 cuabot --type "Chào bạn, mình là Cua!" \`\`\`

Lập trình Agent điều khiển máy tính

Dưới đây là ví dụ cách bạn sử dụng Python SDK để tạo một agent tự động tìm kiếm trên Firefox:

\`\`\`python from computer import Computer from agent import ComputerAgent import asyncio

async def main(): computer = Computer(os_type="linux", provider_type="cloud") agent = ComputerAgent(model="anthropic/claude-sonnet-4-5-20250929", computer=computer)

async for result in agent.run([{"role": "user", "content": "Mở Firefox và tìm kiếm thông tin về Cua AI\

Nguồn: cua