23/12/2024

FPT.AI đã cho ra mắt thế hệ giọng máy tiếng Việt mới với chất lượng vượt trội nhờ công nghệ AceSound tiên tiến nhất hiện nay.

Nâng tầm giọng máy bằng công nghệ hiện đại nhất

Là công ty công nghệ hàng đầu trong lĩnh vực Trí tuệ nhân tạo (AI) cùng sự “am hiểu địa phương”, FPT.AI đã có những nghiên cứu chuyên sâu về công nghệ Xử lý Ngôn ngữ Tự nhiên (NLP) tiếng Việt từ hơn một thập kỷ. Mới đây, hàng loạt các giọng máy phát triển bằng công nghệ vượt trội AceSound đã được đội ngũ chuyên gia FPT.AI hoàn thiện và ra mắt. Công nghệ AceSound được FPT.AI đầu tư và phát triển, nhằm đưa chất lượng giọng máy Text to Speech lên một tầm cao mới. FPT.AI đón đầu xu thế ứng dụng giọng máy vào Trợ lý ảo của các trung tâm tổng đài Chăm sóc khách hàng (CSKH), thực hiện nhiều nghiệp vụ sơ cấp trong lĩnh vực Tài chính – Ngân hàng, giúp các doanh nghiệp rút ngắn thời gian phục vụ khách hàng, giảm tải áp lực cho đội ngũ nhân sự, tối ưu quy trình vận hành.

Nhiều doanh nghiệp là khách hàng của FPT.AI tiên phong triển khai Trợ lý ảo tổng đài của FPT.AI đã bước đầu gặt hái nhiều thành tựu ấn tượng, tiết kiệm chi phí hơn 17 tỷ đồng mỗi tháng.

AceSound vận dụng những công nghệ tiên tiến nhất về tổng hợp giọng nói, khai thác triệt để công nghệ học sâu (deep learning). Do đó, mô hình máy tính có thể học được hàng nghìn đặc trưng về ngữ điệu, biểu cảm trong giọng nói tự nhiên của con người. Kiến trúc mô hình học sâu được tinh chỉnh riêng để tối ưu cho từng giọng nói theo giới tính, vùng miền. Để giọng máy hoàn thiện và có chất lượng tự nhiên như người thật, đội ngũ kĩ sư, các nhà khoa học của FPT.AI đã thực hiện hàng nghìn thí nghiệm nhằm phân tích mẫu, liên tục cải tiến chất lượng âm học.

Đặc biệt, FPT.AI chú trọng gia tăng hiệu năng triển khai giọng máy cho các hệ thống lớn như tốc độ xử lí nhanh hơn, tiêu thụ ít nguồn lực tính toán hơn, đáp ứng lượng sử dụng lớn với cơ sở hạ tầng nhỏ.

Theo đánh giá từ các đối tác đầu tiên được trải nghiệm giọng mới của FPT.AI, có thể nói, giọng máy AceSound mới của FPT.AI có ngữ điệu, biểu cảm gần như tiệm cận với giọng người thật, thậm chí hay hơn giọng người thật, chất lượng ngang với giọng đọc của các MC chuyên nghiệp. Hầu hết người nghe không phân biệt được giọng máy TTS AceSound với giọng người thật trong 10 giây đầu tiên.