OpenAI tiến hành nghiên cứu AI bắt chước giọng nói của con người

Tin tức - sự kiện 04.04.2024 Quốc Anh

OpenAI đã tiết lộ một công cụ trí tuệ nhân tạo mới có thể bắt chước giọng nói của con người với độ chính xác đáng kinh ngạc. Trình tạo giọng nói AI có nhiều ứng dụng tiềm năng, bao gồm cả dịch vụ trợ năng nhưng vẫn có những lo ngại về thông tin sai lệch và các hình thức lạm dụng khác.

OpenAI đã chia sẻ các mẫu từ những thử nghiệm ban đầu của công cụ này, được gọi là Voice Engine, sử dụng mẫu 15 giây của một người đang nói để tạo ra bản sao giọng nói của họ. Sau đó, người dùng có thể cung cấp một đoạn văn bản và công cụ sẽ đọc bằng giọng nói do AI tạo ra.

Công ty cho biết một công cụ chuyển văn bản thành giọng nói được hỗ trợ bởi AI có thể giúp dịch thuật, hỗ trợ đọc cho trẻ em hoặc người mất khả năng nói. Nhưng một số người hoài nghi lo ngại rằng nó cũng có thể thúc đẩy việc tạo ra thông tin sai lệch hoặc khiến việc thực hiện các vụ lừa đảo trở nên dễ dàng hơn.

OpenAI cho biết Voice Engine hiện chỉ được sử dụng bởi một “nhóm nhỏ đối tác đáng tin cậy”, bao gồm các công ty công nghệ giáo dục và y tế. OpenAI sẽ sử dụng các thử nghiệm của họ để xác định xem liệu có cho phép sử dụng rộng rãi hơn hay không và bằng cách nào.

Theo OpenAI, những người thử nghiệm đã đồng ý không tái tạo giọng nói của mọi người mà không có sự đồng ý rõ ràng, đồng thời xác định với người nghe rằng những gì họ đang nghe là do AI tạo ra.

OpenAI đang phát hành Voice Engine, sử dụng đoạn âm thanh mẫu của ai đó đang nói để tạo ra phiên bản giọng nói do AI tạo ra.

OpenAI cho biết trong một bài đăng trên blog: “Chúng tôi nhận thấy rằng việc tạo ra bài phát biểu giống giọng nói của mọi người có những rủi ro nghiêm trọng, điều này đặc biệt được quan tâm hàng đầu trong năm bầu cử”. Công ty thừa nhận sự cần thiết phải có những thay đổi lớn khi âm thanh do AI tạo ra trở nên phổ biến rộng rãi hơn, mặc dù họ không có kế hoạch phát hành Voice Engine ra công chúng ngay lập tức.

Bên cạnh đó, tính năng Voice Engine có thể sao chép giọng nói từ một ngôn ngữ thành nhiều ngôn ngữ khác nhau. Trong mỗi mẫu do AI tạo ra, âm sắc và giọng nói của người nói gốc vẫn được giữ nguyên.

Bản thử nghiệm của Voice Engine xuất hiện khi người dùng đang chờ phát hành công khai Sora, công cụ video do AI tạo ra mà OpenAI đã giới thiệu vào tháng 2/2024.