Bạn đã bao giờ tưởng tượng đến một ngày mình chẳng cần phải dán mắt vào màn hình điện thoại hay gõ phím liên tục để làm việc chưa? Mati Staniszewski, đồng sáng lập kiêm CEO của ElevenLabs, tin rằng viễn cảnh đó đang đến rất gần. Theo ông, giọng nói chính là giao diện lớn tiếp theo của trí tuệ nhân tạo, thay đổi hoàn toàn cách chúng ta tương tác với máy móc.

Tại sự kiện Web Summit diễn ra ở Doha, Staniszewski chia sẻ với TechCrunch rằng các mô hình giọng nói hiện nay đã bước sang một trang mới. Chúng không còn đơn thuần là bắt chước âm thanh con người một cách vô hồn. Thay vào đó, những công nghệ mà ElevenLabs đang phát triển đã có thể kết hợp nhuần nhuyễn giữa cảm xúc, ngữ điệu và khả năng tư duy của các mô hình ngôn ngữ lớn (LLM).

Khi chiếc điện thoại nằm yên trong túi quần

Tầm nhìn của Staniszewski khá thú vị: "Trong những năm tới, mình hy vọng tất cả điện thoại sẽ được cất trở lại vào túi. Chúng ta có thể thực sự đắm mình vào thế giới thực xung quanh, và giọng nói sẽ là cơ chế chính để điều khiển công nghệ".

Cá nhân mình thấy ý tưởng này cực kỳ giải phóng, nhưng cũng đầy thách thức. Để hiện thực hóa tầm nhìn này, ElevenLabs vừa gọi vốn thành công 500 triệu USD, đưa định giá công ty lên con số ấn tượng 11 tỷ USD. Và họ không hề đơn độc trong cuộc chơi này. Cả OpenAI và Google đều đang đặt giọng nói làm trọng tâm cho các mô hình thế hệ mới. Ngay cả Apple cũng đang âm thầm thâu tóm các công ty như Q.ai để phát triển công nghệ hỗ trợ giọng nói luôn bật.

Khi AI bắt đầu len lỏi vào các thiết bị đeo (wearables), ô tô và các phần cứng mới, việc chạm vào màn hình dần trở nên lạc hậu. Giọng nói đang trở thành chiến trường khốc liệt nhất trong giai đoạn tiếp theo của quá trình phát triển AI.

Tạm biệt bàn phím, chào đón những "trợ lý" hiểu ý người dùng

Seth Pierrepont, đối tác điều hành tại Iconiq Capital, cũng đồng tình với quan điểm này. Ông cho rằng dù màn hình vẫn quan trọng đối với game hay giải trí, nhưng những phương thức nhập liệu truyền thống như bàn phím đang bắt đầu tạo cảm giác "cũ kỹ".

Điểm nhấn quan trọng nhất chính là sự chuyển dịch sang tính "tác nhân" (agentic). Thay vì bạn phải đưa ra từng chỉ dẫn chi tiết, các hệ thống giọng nói trong tương lai sẽ dựa vào bộ nhớ dài hạn và bối cảnh được tích lũy theo thời gian. Điều này giúp mọi cuộc trò chuyện trở nên tự nhiên hơn, bạn chẳng cần phải tốn quá nhiều công sức để máy tính hiểu mình muốn gì.

Để hỗ trợ các thiết bị phần cứng mới như tai nghe hay kính thông minh, ElevenLabs đang hướng tới mô hình lai (hybrid) – kết hợp giữa xử lý đám mây và xử lý trực tiếp trên thiết bị. Mục tiêu là biến giọng nói thành một người bạn đồng hành liên tục, chứ không chỉ là một tính năng mà bạn phải cân nhắc khi nào nên bật.

Những rào cản về quyền riêng tư

Hiện tại, ElevenLabs đã bắt tay với Meta để đưa công nghệ của mình vào các sản phẩm như Instagram và Horizon Worlds. Staniszewski cũng để ngỏ khả năng hợp tác trên dòng kính thông minh Ray-Ban của Meta. Tuy nhiên, khi giọng nói hiện diện ở khắp mọi nơi và gắn chặt vào phần cứng hàng ngày, nó cũng mở ra những lo ngại lớn về quyền riêng tư và giám sát.

Liệu chúng ta có sẵn sàng để các hệ thống AI lưu trữ bao nhiêu dữ liệu cá nhân khi chúng ngày càng tiến gần hơn vào đời sống riêng tư? Đây là một câu hỏi hóc búa mà các ông lớn như Google từng bị cáo buộc lạm dụng. Dù công nghệ có tiến xa đến đâu, niềm tin của người dùng vẫn là rào cản lớn nhất mà những startup như ElevenLabs cần phải vượt qua.


Nguồn: ElevenLabs CEO: Voice is the next interface for AI