AI của Microsoft chỉ cần 3 giây để bắt chước giọng nói của bất kỳ ai

Sau DALL-E, trí tuệ nhân tạo giúp tạo ra hình ảnh từ các văn bản, Microsoft đã tung ra VALL-E, AI có thể bắt chước giọng nói của bất kỳ ai.

Microsoft tung ra AI mới có thể bắt chước giọng nói của con người. Ảnh: Microsoft

Microsoft đã cho thấy AI có thể bắt chước bất kỳ giọng nói của con người như thế nào. Được gọi là VALL-E, đây dường như là người anh em của DALL-E AI có khả năng tạo một hình ảnh dựa trên văn bản đã từng được ra mắt trước đây.

Trí tuệ nhân tạo VALL-E có thể bắt chước âm sắc và cách nói của con người bằng cách lắng nghe một người thật nói chuyện trong ba giây. Mặc dù âm thanh vẫn nghe hơi giống giọng của robot, nhưng kết quả nãy vẫn rất ấn tượng.

Chỉ cần nghe giọng nói của một người trong 3 giây là VALL-E đã có thể bắt chước giọng của họ. Ảnh: Gizchina

Microsoft gọi đó là “mô hình ngôn ngữ codec thần kinh”. VALL-E được xây dựng trên nền tảng EnCodec (codec âm thanh sử dụng kỹ thuật máy học), được Meta phát triển cách đây một năm, vào năm 2022.

VALL-E có thể bắt chước giọng nói của bất cứ ai

Các phương pháp chuyển văn bản thành giọng nói khác thường tính đến dạng sóng của âm thanh, nhưng VALL-E lại tạo codec âm thanh riêng biệt từ văn bản và âm thanh. Trên thực tế, nó phân tích âm thanh của một người.

Sau đó, nó chia nhỏ thông tin đó thành các phần riêng biệt (được gọi là “mã thông báo”) thông qua EnCodec. Và cuối cùng, nó sử dụng dữ liệu để “khớp” với những gì nó “đã biết” về giọng nói đó và phát triển các cụm từ khác ngoài mẫu âm thanh thu được.

Trí tuệ nhân tạo của Microsoft được dạy bằng một thư viện đặc biệt, chứa 60.000 giờ nói tiếng Anh từ hơn 7.000 người khác nhau. Các nhà phát triển gợi ý rằng phương pháp này có thể được sử dụng cho các ứng dụng chuyển văn bản thành giọng nói chất lượng cao.

Chẳng hạn, người dùng có thể sử dụng nó để chỉnh sửa các bản ghi âm giọng nói trong đó có các từ được phép thay đổi. Do đó, người dùng có thể tạo nội dung âm thanh (chẳng hạn như thuyết minh cho sách nói), một cách dễ dàng và “vừa tai” hơn.

Tất nhiên, một công nghệ như vậy cũng có thể mang tới một số mối nguy hiểm nhất định. Không sớm thì muộn, nó sẽ bị lợi dụng và trở thành một công cụ tống tiền. Điều này đã xảy ra với công nghệ Deepfakes trước đây, khi những kẻ xấu sử dụng nó để ghép khuôn mặt người nổi tiếng vào người khác.

AI của Microsoft chỉ cần 3 giây để bắt chước giọng nói của bất kỳ ai

15 công ty bán dẫn có vốn hóa lớn nhất Mỹ

Cấu trúc phức tạp của chiếc máy tính 2.000 năm tuổi

Apple Vision Pro sẽ tạo nên cuộc cách mạng mới trong kỷ nguyên Metaverse?

Louis Vuitton bán NFT trị giá 41 nghìn đô la

Icon box title

Icon box title

Icon box title

AI của Microsoft chỉ cần 3 giây để bắt chước giọng nói của bất kỳ ai

Liên hệ với chúng tôi

Icon box title

Icon box title

Icon box title