Microsoft phát triển công cụ có thể nhại giọng bất kỳ ai sau 3 giây

Các mô hình chuyển văn bản thành giọng nói có thể giúp bảo toàn âm điệu cảm xúc của người nói cũng như môi trường âm thanh của giọng nói.

13/01/2023 09:20

Mô hình của VALL-E cho phép AI nhại giọng của bất kỳ ai. (Nguồn: ARS Technica)

Các nhà nghiên cứu của công ty Microsoft vừa công bố một mô hình trí tuệ nhân tạo (AI) có khả năng chuyển văn bản thành giọng nói mới mang tên VALL-E. Điều thú vị là VALL-E có thể mô phỏng rất sát giọng nói của một người, khi được cung cấp một mẫu âm thanh do người này đọc, với độ dài chỉ 3 giây.

Sau khi học được một giọng nói cụ thể, VALL-E có thể tổng hợp và tạo ra âm thanh của người đó đang nói bất kỳ nội dung gì, kèm theo diễn cảm khi nói rất giống thật.

Những người tạo ra VALL-E cho rằng AI này có thể được sử dụng cho các ứng dụng chuyển văn bản thành giọng nói chất lượng cao. VALL-E cũng có thể được dùng để chỉnh sửa giọng nói, trong đó bản ghi âm của một người có thể được chỉnh sửa và thay đổi để họ nói thêm điều gì đó mà ban đầu không nói tới. Ngoài ra, VALL-E cũng có thể được dùng để tạo nội dung âm thanh, khi kết hợp với các mô hình AI sáng tạo khác như GPT-3.

Microsoft gọi VALL-E là "bộ giải mã thần kinh của mô hình ngôn ngữ " và nó được xây dựng dựa trên công nghệ có tên EnCodec mà công ty Meta từng công bố vào tháng 10/2022. Không giống như các phương thức chuyển văn bản thành giọng nói khác, thường tổng hợp giọng nói bằng cách điều chỉnh các dải sóng âm, VALL-E tạo ra các bộ mã âm thanh riêng biệt từ dữ liệu nhập vào là văn bản và âm thanh.

Về cơ bản, nó sẽ phân tích cách một người phát âm khi nói, rồi chia thông tin thành các thành phần riêng biệt (được gọi là các "token") nhờ EnCodec. Tiếp đó, AI sử dụng dữ liệu được đào tạo để khớp với những gì nó "hiểu biết" về cách thức âm thanh được tạo ra khi một người nói và tạo ra các âm thanh mới, giống hệt với lối nói và cảm xúc nằm trong đoạn âm thanh mẫu dài 3 giây ban đầu.

Hoặc chúng ta có thể hiểu về VALL-E như giải thích chính thức của Microsoft: Để tổng hợp ra một giọng nói được cá nhân hóa, VALL-E tạo token âm thanh tương ứng dựa trên token âm thanh của bản ghi âm mẫu dài 3 giây và dữ liệu đầu vào về âm vị, sẽ hạn chế thông tin về nội dung và người nói tương ứng. Cuối cùng, token âm thanh tạo ra từ quá trình này sẽ được sử dụng để tổng hợp thành dải sóng âm, thông qua một giải mã thần kinh của mô hình ngôn ngữ tương ứng.

Microsoft đã đào tạo khả năng tổng hợp giọng nói của VALL-E dựa trên một thư viện âm thanh do Meta tổng hợp, có tên là LibriLight. Nó chứa 60.000 giờ bài phát biểu bằng tiếng Anh, từ hơn 7.000 người nói. Hầu hết các giọng nói này thực tế là những sản phẩm sách nói, được trích xuất từ kho sách nói công cộng LibriVox.

Để VALL-E cho ra kết quả tốt, giọng nói trong mẫu ghi âm dài 3 giây phải khớp với giọng nói trong dữ liệu huấn luyện AI này.

Trên trang web trình diễn năng lực của VALL-E, Microsoft cung cấp rất nhiều ví dụ cho thấy hoạt động của mô hình AI. Người hứng thú với sản phẩm này có thể truy cập theo địa chỉ https://valle-demo.github.io/ để trải nghiệm.

Mô hình hoạt động của VALL-E. (Nguồn: ARS Technica)

Ngoài việc bảo toàn âm sắc giọng nói và giai điệu cảm xúc của người nói, VALL-E cũng có thể bắt chước "môi trường âm thanh" của âm thanh mẫu. Ví dụ: nếu mẫu đến từ một cuộc gọi điện thoại, thì đầu ra âm thanh sẽ mô phỏng các thuộc tính âm thanh và tần số của một cuộc gọi điện thoại trong sản phẩm tổng hợp cuối.

Nhưng có lẽ do khả năng của VALL-E quá mạnh, có thể bị kẻ xấu sử dụng để phục vụ cho các trò lừa đảo, nên hiện Microsoft không cho phép công chúng thử nghiệm AI này. Nhóm nghiên cứu dường như cũng nhận thức được tác hại xã hội tiềm ẩn liên quan tới sản phẩm của họ.

Vì thế, họ đã kết luận ở cuối bài báo khoa học giới thiệu về VALL-E như sau: "Vì VALL-E có thể tổng hợp giọng nói để duy trì danh tính của người nói, nên nó có thể chứa những rủi ro tiềm ẩn nếu sử dụng sai mô hình, chẳng hạn như giả mạo giọng nói hoặc mạo danh một người nói cụ thể. Để giảm thiểu những rủi ro như vậy, có thể xây dựng thêm một mô hình phát hiện, để phân biệt liệu một đoạn âm thanh có phải là sản phẩm do VALL-E tổng hợp hay không. Chúng tôi cũng sẽ áp dụng các Nguyên tắc AI của Microsoft vào thực tế khi phát triển thêm AI này"./.

(Vietnam+)

#Microsoft #Trí tuệ nhân tạo #AI #nhại giọng nói

Microsoft phát triển công cụ có thể nhại giọng bất kỳ ai sau 3 giây

Tin cùng chuyên mục

Hơn 50 quốc gia cảnh báo LHQ về các vụ tấn công mã độc nhằm vào bệnh viện

Hướng đi mới nhằm thúc đẩy kinh tế tuần hoàn thông qua công nghệ số

Việt Nam được vinh danh tại Giải thưởng ASOCIO DX Award 2024

Kỷ nguyên mới: Định hướng chiến lược chuyển đổi số

Chiến lược Dữ liệu Quốc gia đảm bảo mục tiêu xây dựng nền hạ tầng vững chắc

Ra mắt bộ giải pháp, dịch vụ an ninh mạng toàn diện cho tổ chức, doanh nghiệp

Việt Nam được vinh danh tại Giải thưởng công nghệ, chuyển đổi số uy tín quốc tế

Có khung pháp lý rõ ràng để quản lý, sử dụng hiệu quả, an toàn các loại dữ liệu

Sắp vận hành cổng thông tin cấp thị thực điện tử mới với nhiều cải tiến

Xtrend phân phối các giải pháp hạ tầng trung tâm dữ liệu cho CyberPower

Bộ Quốc phòng khai trương Cơ sở dữ liệu về xử lý vi phạm hành chính

Ngành bán dẫn Việt Nam trước cơ hội “độc nhất vô nhị”

Canada cấm Công ty TikTok hoạt động tại nước này do lo ngại rủi ro an ninh

Australia lên kế hoạch cấm người dưới 16 tuổi sử dụng mạng xã hội

Apple chính thức bắt đầu lắp ráp toàn bộ dòng iPhone 16 tại Ấn Độ

Xử phạt VNTEL.,JSC vì thực hiện cuộc gọi rác để bôi nhọ, quấy rối, đòi nợ

Apple đối mặt với án phạt mới từ châu Âu và Nga

Giá điện sẽ tiếp tục tăng trong kỷ nguyên của “hà mã ăn điện” AI

Triển khai mạng truyền dẫn quang đạt tốc độ lên tới 1,2Tb/s tại Việt Nam

Nvidia vượt qua Apple trở thành công ty có giá trị vốn hóa lớn nhất thế giới

Trang web của Bộ Quốc phòng Hàn Quốc bị tấn công mạng

Apple nghiên cứu khả năng phát triển kính thông minh cạnh tranh với Meta

Tốc độ tăng trưởng số của khu vực Đông Nam Á chậm lại

OpenAI sắp “rẽ hướng” sang mô hình doanh nghiệp vì lợi nhuận

Thanh tra Bộ Thông tin và Truyền thông ra quyết định xử phạt ShopeePay

Agribank ra mắt Tài khoản Plus: Đột phá trong trải nghiệm ngân hàng số

Meta lĩnh án phạt 15,6 triệu USD vì thu thập dữ liệu nhạy cảm bất hợp pháp

Công thức bí mật giúp Dubai trở thành trung tâm công nghệ mới của thế giới

Brazil điều tra việc TikTok truy cập dữ liệu trẻ vị thành niên

Tạo nguồn nhân lực chất lượng cao phục vụ phát triển đô thị thông minh

Microsoft phát triển công cụ có thể nhại giọng bất kỳ ai sau 3 giây

Tin liên quan