Bạn đã bao giờ tưởng tượng một nhóm AI có thể tự "họp" và viết ra cả một phần mềm phức tạp mà không cần con người nhúng tay chưa? Nghe có vẻ giống phim viễn tưởng, nhưng Anthropic vừa chứng minh rằng điều đó hoàn toàn khả thi.

Trong bối cảnh cuộc đua AI agent (đại lý AI) đang nóng lên từng ngày khi cả Anthropic và OpenAI đều tung ra các công cụ đa tác vụ, Anthropic đã quyết định chơi lớn. Họ vừa công bố một thí nghiệm lập trình đầy táo bạo, cho thấy sức mạnh của việc để các AI tự làm việc với nhau. Tuy nhiên, như mọi tuyên bố gây sốc khác trong giới công nghệ, chúng ta cần nhìn vào những chi tiết thực tế đằng sau.

Khi 16 AI cùng "hợp sức"

Vào thứ Năm vừa qua, Nicholas Carlini, một nhà nghiên cứu tại Anthropic, đã chia sẻ về cách ông thả xích cho 16 phiên bản Claude Opus 4.6 hoạt động trên một kho mã nguồn chung. Điều thú vị là chúng làm việc với sự giám sát tối thiểu từ con người. Nhiệm vụ đặt ra rất rõ ràng: Xây dựng một trình biên dịch C từ con số 0.

Sau hai tuần làm việc miệt mài với gần 2.000 phiên làm việc (sessions) thông qua Claude Code và tiêu tốn khoảng 20.000 USD phí API, kết quả thu được thực sự ấn tượng. Các agent này đã tạo ra một trình biên dịch dựa trên ngôn ngữ Rust với hơn 100.000 dòng code. Trình biên dịch này không chỉ để trưng bày; nó đủ mạnh để xây dựng một nhân Linux 6.9 có thể khởi động được trên các kiến trúc x86, ARM và RISC-V.

Cách thức vận hành không cần "sếp"

Carlini, người từng có 7 năm kinh nghiệm tại Google Brain và DeepMind, đã tận dụng một tính năng mới mang tên "agent teams". Thay vì có một AI đứng ra điều phối như kiểu quản lý dự án, mỗi phiên bản Claude chạy độc lập trong một container Docker riêng biệt.

Quy trình làm việc diễn ra rất tự nhiên: Chúng tự nhân bản kho lưu trữ Git chung, tự nhận việc bằng cách tạo các tệp khóa (lock files), sau đó đẩy mã nguồn đã hoàn thiện lên hệ thống. Nếu có xung đột khi gộp mã (merge conflicts), các agent này cũng tự mình giải quyết luôn. Mình thấy điểm này thực sự ấn tượng vì ngay cả lập trình viên con người đôi khi còn đau đầu với việc xử lý conflict trên Git.

Kết quả là một trình biên dịch (hiện đã được Anthropic công bố trên GitHub) có khả năng biên dịch hàng loạt dự án mã nguồn mở lớn như PostgreSQL, SQLite, Redis, FFmpeg và QEMU. Thậm chí, nó đạt tỷ lệ vượt qua 99% trong bộ kiểm thử GCC và vượt qua cả "bài kiểm tra cuối cùng" của mọi lập trình viên: Biên dịch và chạy thành công tựa game Doom.

Nhìn lại thực tế: AI đã thực sự thay thế con người?

Tuy nhiên, mình nghĩ chúng ta cũng cần giữ một cái đầu lạnh. Trình biên dịch C là một bài toán "gần như hoàn hảo" cho AI. Tại sao ư? Vì các thông số kỹ thuật của nó đã tồn tại hàng thập kỷ và cực kỳ rõ ràng. Các bộ kiểm thử toàn diện đã có sẵn, và luôn có một trình biên dịch mẫu để đối chiếu.

Trong các dự án phần mềm thực tế, mọi thứ thường hỗn loạn hơn nhiều. Điểm khó nhất của việc phát triển phần mềm không phải là viết code sao cho vượt qua bài kiểm tra, mà là việc xác định xem các bài kiểm tra đó nên là gì ngay từ đầu. AI có thể giỏi trong việc giải quyết các bài toán có đáp án sẵn, nhưng để thấu hiểu nhu cầu mơ hồ của khách hàng hay thiết kế một hệ thống chưa từng có tiền lệ, con người vẫn giữ vai trò không thể thay thế.

Dù sao đi nữa, thí nghiệm này là một minh chứng rõ nét cho thấy tương lai của lập trình sẽ thay đổi. Có lẽ thay vì tự gõ từng dòng code, công việc của chúng ta trong tương lai sẽ là điều phối một "đội quân" AI như thế này.


Nguồn: Sixteen Claude AI agents working together created a new C compiler