Con người khó phân biệt giọng nói thật giả do deepfake tạo ra

VOH - Những deepfake đã tạo ra giọng nói vô cùng thật khiến nhiều người kinh ngạc.

Theo nghiên cứu mới của Đại học College London , con người không thể phát hiện hơn 1/4 mẫu giọng nói deepfake do AI tạo ra.

Theo Viện Công nghệ Massachusetts, trong công nghệ deepfake có chức năng một người trong hình ảnh hoặc video được hoán đổi với chân dung của một người khác.

Kỹ thuật này cũng đã được sử dụng để tái tạo giọng nói của mọi người để lừa đảo. Nghiên cứu mới của UCL được công bố vào tuần trước trên tạp chí PLOS One, đã sử dụng thuật toán chuyển văn bản thành giọng nói, được đào tạo trên hai bộ dữ liệu có sẵn công khai để tạo ra 50 mẫu giọng nói deepfake bằng tiếng Anh và tiếng Hoa (tiếng Phổ thông).

Các mẫu được phát cho 529 người tham gia nghiên cứu, những người đã cố gắng giải mã giọng thật và giọng giả. Những người tham gia chỉ có thể xác định giọng nói giả trong 73% thời gian, chỉ cải thiện một chút sau khi họ được đào tạo về cách nhận biết giọng nói giả.

Con người khó phân biệt giọng nói thật giả do deepfake tạo ra 1 — Deepfake tạo ra giọng nói khiến con người khó phân biệt thật giả.

Kimberly Mai, tác giả của nghiên cứu, cũng là tiến sĩ về máy học tại UCL, cho biết: “Phát hiện của chúng tôi xác nhận rằng con người không thể phát hiện giọng nói deepfake, cho dù họ có được đào tạo để giúp họ phát hiện nội dung giả tạo hay không”.

“Điều đáng chú ý là các mẫu mà chúng tôi sử dụng trong nghiên cứu này được tạo ra bằng các thuật toán tương đối cũ, điều này đặt ra câu hỏi liệu con người ít có khả năng phát hiện giọng nói deepfake được tạo bằng công nghệ tinh vi nhất hiện có và trong tương lai hay không”, Mai nói tiếp.

Nghiên cứu của Anh được cho là nghiên cứu đầu tiên khám phá khả năng của con người trong việc phát hiện lời nói nhân tạo bằng một ngôn ngữ không phải tiếng Anh. Những người nói tiếng Anh và tiếng Hoa cho thấy tỷ lệ phát hiện tương tự nhau, nhưng những người nói tiếng Anh thường nhắc đến hơi thở, trong khi những người nói tiếng Hoa ghi nhận nhịp điệu khi được hỏi về phương pháp giải mã của họ.

Các nhà nghiên cứu của UCL cảnh báo rằng công nghệ deepfake ngày càng mạnh mẽ và tinh vi, vì các thuật toán được đào tạo trước mới nhất “có thể tái tạo giọng nói của một người chỉ bằng một đoạn clip dài 3 giây khi họ nói”.

Các nhà khoa học muốn tạo ra các máy dò giọng nói tự động mạnh hơn để có thể chống lại các mối đe dọa tiềm ẩn tốt hơn. Giáo sư Lewis Griffin của UCL, tác giả chính của nghiên cứu cho biết: “Với công nghệ trí tuệ nhân tạo ngày càng tinh vi hơn và nhiều công cụ trong số này có sẵn một cách công khai, chúng ta sắp nhận thấy nhiều lợi ích cũng như rủi ro”.

Theo một số chuyên gia, deepfakes sẵn sàng đóng một vai trò nguy hiểm trong cuộc bầu cử năm 2024. Vào tháng 3, nền tảng chia sẻ video TikTok đã cấm deepfakes của những người trẻ tuổi . Động thái này được đưa ra trong bối cảnh các vụ lừa đảo sử dụng deepfakes để khiến mọi người sợ hãi giao tiền hoặc gửi hình ảnh khiêu dâm của mình.