Siêu âm tim
Siêu âm tim là một phương pháp hình ảnh phổ biến được sử dụng để đánh giá chức năng và cấu trúc của tim. Đây là một kỹ thuật không xâm lấn, chi phí hợp lý và dễ dàng tiếp cận, cung cấp thông tin trực tiếp về cấu trúc và hoạt động của tim. Tuy nhiên, việc giải thích kết quả siêu âm tim phụ thuộc nhiều vào kinh nghiệm của người thực hiện và chất lượng hình ảnh. Phân tích tự động kết quả siêu âm tim có tiềm năng cải thiện độ chính xác và hiệu quả trong chẩn đoán và điều trị các bệnh tim mạch. Dù vậy, việc phát triển các mô hình học máy cho phân tích siêu âm tim gặp nhiều thách thức do sự khan hiếm của dữ liệu được gán nhãn, sự phức tạp của hình ảnh siêu âm tim, và sự biến đổi của chúng giữa các bệnh nhân và hệ thống hình ảnh khác nhau.
Dữ liệu siêu âm tim
Dữ liệu siêu âm tim đóng vai trò quan trọng trong việc chẩn đoán và điều trị các bệnh tim mạch. Tuy nhiên, việc có được dữ liệu có nhãn đầy đủ và chất lượng cao là một thách thức lớn trong lĩnh vực này. Các dữ liệu có nhãn yêu cầu sự can thiệp của các chuyên gia y tế để gán nhãn cho từng hình ảnh. Các chuyên gia y tế đánh dấu từng phân vùng, phân đoạn trên hình ảnh cùng với mô tả về tình trạng của từng vùng này, điều này không chỉ tốn nhiều thời gian mà còn đòi hỏi chi phí cao.
Một trong những cách tiếp cận để giải quyết vấn đề khan hiếm dữ liệu là sử dụng dữ liệu y tế tổng hợp (synthetic medical imaging). Trong lĩnh vực siêu âm tim, dữ liệu tổng hợp thường được tạo ra từ các mô phỏng dựa trên vật lý và các mô hình sinh tạo dựa trên dữ liệu sâu.
Các mô phỏng dựa trên vật lý tạo ra dữ liệu siêu âm tổng hợp bằng cách giải phương trình sóng, mô phỏng quá trình vật lý của hình ảnh siêu âm. Từ bản đồ phân vùng các cấu trúc giải phẫu của quả tim, mô phỏng vật lý bằng phần mềm có thể tạo ra một hình ảnh siêu âm tổng hợp bằng cách mô phỏng sự lan truyền của sóng siêu âm qua các mô, thường với sự hỗ trợ của mô hình tán xạ. Tuy nhiên, các mô phỏng dựa trên vật lý này rất tốn kém về mặt tính toán và yêu cầu kiến thức chuyên môn để điều chỉnh các thông số như tốc độ âm thanh (trong cơ thể người), hệ số suy giảm và hệ số tán xạ để tạo ra các hình ảnh siêu âm thực tế. Ngoài ra, việc thu được bản đồ tán xạ mô từ bản đồ phân vùng không phải là điều đơn giản và thường gây ra các cấu trúc giải phẫu không thực tế trong các hình ảnh siêu âm tổng hợp.
Bên cạnh các mô phỏng dựa trên vật lý, các mô hình tạo sinh bằng học sâu (deep learning) dựa trên dữ liệu như mạng đối nghịch tạo sinh (Generative Adversarial Networks – GANs) đã được đề xuất để tạo ra các hình ảnh siêu âm tim thực tế. Dù có những kết quả hứa hẹn, chất lượng của các hình ảnh siêu âm được tạo bởi GANs thường bị giới hạn do vấn đề “sụp đổ chế độ” (mode collapse). Các mô hình khuếch tán (Diffusion Models – DMs) gần đây đã nổi lên như một lựa chọn thay thế hứa hẹn cho GANs để tạo ra các video và điều kiện thực tế hơn, nhờ vào quy trình đào tạo dễ dàng hơn và chất lượng mẫu tốt hơn. Tuy nhiên, việc kiểm soát sự sinh tạo của các mô hình khuếch tán hiện tại đòi hỏi một bộ dữ liệu song song của bản đồ phân vùng và hình ảnh siêu âm tim; điều này không phải lúc nào cũng có sẵn trong lĩnh vực hình ảnh y tế.
Các nghiên cứu liên quan
Nhiều phương pháp đã được đề xuất để tạo ra các hình ảnh siêu âm tim thực tế. Salehi và cộng sự [1] đã sử dụng trình mô phỏng vật lý để tạo ra các hình ảnh siêu âm tim cụ thể cho từng bệnh nhân. Liang [2] đề xuất một mô hình dựa trên GANs để tạo ra hình ảnh siêu âm từ hình ảnh phác thảo. Tomar và cộng sự [3] cũng sử dụng Cycle-GANs để tạo ra các hình ảnh siêu âm tim bảo tồn nội dung với dữ liệu không ghép đôi. Dù các phương pháp dựa trên GANs đã cho thấy kết quả hứa hẹn trong việc tổng hợp siêu âm tim, chất lượng của các hình ảnh tạo ra thường bị giới hạn do vấn đề “sụp đổ chế độ” và khó khăn trong việc đào tạo GANs.
Các mô hình khuếch tán (DMs) đã được đề xuất để tạo ra các hình ảnh siêu âm tim thực tế [4, 5, 6]. Reynaud và cộng sự [5] phát triển một mô hình khuếch tán bậc thang, được điều kiện bởi một khung hình cuối kỳ tâm trương (End – Diastolic – ED), để sản xuất các hình ảnh siêu âm với các phân suất tống máu thất trái (Left Ventricular Ejection Fractions – LVEFs) khác nhau. Stojanovski và cộng sự [6] sử dụng mô hình xác suất khuếch tán khử nhiễu (Denoising Diffusion Probabilistic Models – DDPMs) để tạo ra các hình ảnh siêu âm tim tổng hợp với các điều kiện được làm từ bản đồ nhãn ngữ nghĩa. Một phương pháp khác dựa trên DDPMs của Phi và cộng sự [4] áp dụng bản đồ phân vùng của kỳ tâm trương trong một bộ giải mã đa cấp để tạo ra các chuỗi siêu âm tim thực tế với các cấu trúc giải phẫu đa dạng. Dù các phương pháp dựa trên khuếch tán đã cho thấy thành công, các phương pháp hiện tại vẫn đòi hỏi một bộ dữ liệu ghép đôi của bản đồ phân vùng và dữ liệu siêu âm tim.
Gần đây, mô hình khuếch tán video điều kiện (Conditional Diffusion Models – CDMs) được đã đề xuất để tổng hợp hình ảnh siêu âm tim. CDMs nhằm tạo ra các mẫu thực tế dựa trên một số điều kiện, từ mô tả ngữ nghĩa từ văn bản đến bố cục không gian như hộp bao, bản đồ phân vùng. Đặc biệt trong lĩnh vực hình ảnh y tế, CDMs cho phép tạo ra dữ liệu tổng hợp với các giải phẫu, bệnh lý và tham số thu nhận khác nhau. Với bộ dữ liệu ghép đôi của điều kiện và mẫu, các phương pháp điều kiện có hướng dẫn phân loại [7] và không cần hướng dẫn phân loại [8] đã được đề xuất cho CDMs trên bố cục không gian. Trong một số lĩnh vực, chẳng hạn như hình ảnh y tế, nơi mà bộ dữ liệu ghép đôi của điều kiện không phải lúc nào cũng có sẵn, các nhà nghiên cứu tìm kiếm phương pháp điều kiện không cần đào tạo, chẳng hạn như phương pháp chỉnh sửa vi phân ngẫu nhiên (Stochastic Differential Editing – SDEdit) [9]. Tuy nhiên, SDEdit yêu cầu phiên bản được tô màu của bố cục không gian, gặp vấn đề rò rỉ nội dung.
Phương pháp đề xuất – CDM
Phương pháp do TS. Trần Quốc Long và nhóm nghiên cứu đề xuất thuộc dự án “AI-Cardio: Hệ thống trí tuệ nhân tạo chẩn đoán và tiên lượng bệnh nhồi máu cơ tim dựa trên siêu âm tim”. Dự án dựa trên siêu âm tim mang đến khả năng tính toán tự động một số chỉ số quan trọng chỉ báo sức khỏe của quả tim như phân suất tống máu, sức căng toàn thể theo chiều dọc tâm thất trái. Trên cơ sở đó, phần mềm hỗ trợ các bác sĩ chẩn đoán, tiên lượng bệnh nhồi máu cơ tim dựa trên siêu âm tim.
Các thuật toán tự động phân tích hình ảnh siêu âm tim sử dụng các phương pháp Trí tuệ nhân tạo mới nhất, cụ thể là các phương pháp nhận dạng hình ảnh dựa trên kỹ thuật học sâu, được nhóm nghiên cứu phát triển để nhận dạng hình ảnh động theo nhịp đập của quả tim. Để các thuật toán hoạt động chính xác, các bác sĩ đã kỳ công gán nhãn để tạo bộ dữ liệu cho hàng nghìn ca siêu âm tim, trên các loại máy siêu âm tim khác nhau. Dựa trên kết quả nhận dạng, phân tích ảnh siêu âm, phần mềm tự động ước lượng các chỉ số quan trọng của quả tim cho phép chẩn đoán, tiên lượng bệnh nhồi máu cơ tim. Với cách tiếp cận này, dự án tự động hóa một số chức năng còn phải thực hành thủ công hoặc bán tự động trên máy siêu âm tim, cần bác sĩ có chuyên môn kỹ thuật tốt và hiện nay khá đắt đỏ. Tính năng tự động này giúp các bệnh viện tuyến dưới sàng lọc bệnh nhân nhồi máu cơ tim tim tốt và hiệu quả hơn.
Dựa trên một bản đồ phân vùng cuối kỳ tâm trương , phương pháp đề xuất xử lý qua 3 bước: (1) Đầu tiên, giải quyết bài toán vận chuyển tối ưu (optimal transport) để thu được hình ảnh giả Î0; (2) sau đó, thêm nhiễu Gaussian vào hình ảnh giả để được phiên bản nhiễu của video giả ; cuối cùng, thực hiện quá trình đảo ngược của mô hình khuếch tán từ bước khuếch tán t đến bước khuếch tán t = 0, thu được hình ảnh siêu âm tim được tạo ra
Các chỉ số đánh giá chất lượng ảnh được tạo ra bởi mô hình thường gặp là:
– Chỉ số tương đồng cấu trúc (Structural Similarity Index Measure – SSIM) là một độ đo dùng để đánh giá chất lượng hình ảnh bằng cách so sánh sự tương đồng giữa hai hình ảnh. Độ đo này tập trung vào ba khía cạnh chính của hình ảnh: độ tương phản; độ sáng; và cấu trúc. SSIM được tính dựa trên các công thức toán học và cho ra một giá trị từ -1 đến 1, với giá trị 1 cho biết hai hình ảnh hoàn toàn giống nhau về cấu trúc. SSIM thường được sử dụng trong việc đánh giá chất lượng của các hình ảnh nén hoặc tái tạo.
– Tỷ số tín hiệu trên nhiễu đỉnh (Peak Signal-to-Noise Eatio – PSNR) là một độ đo được sử dụng để đánh giá chất lượng của các hình ảnh hoặc video nén so với bản gốc. PSNR được tính bằng cách so sánh sự khác biệt giữa các điểm ảnh của hai hình ảnh và cho ra một giá trị tính bằng decibel (dB). Giá trị PSNR càng cao thì chất lượng hình ảnh tái tạo càng tốt. Công thức tính PSNR dựa trên MSE (Mean Squared Error – Sai số bình phương trung bình) giữa hai hình ảnh:
Khoảng cách khởi đầu Fréchet (Fréchet Inception Distance – FID) là một độ đo được sử dụng để đánh giá chất lượng của hình ảnh được sinh tạo bởi các mô hình học máy, đặc biệt là GANs. FID tính toán sự khác biệt giữa phân phối của các đặc trưng trích xuất từ hai tập dữ liệu hình ảnh (tập hình ảnh gốc và tập hình ảnh sinh tạo) bằng cách sử dụng mạng Inception. Giá trị FID càng thấp thì hình ảnh sinh tạo càng gần với hình ảnh gốc về mặt phân phối.
Khoảng cách Fréchet Video (Fréchet Video Distance – FVD) là một phiên bản mở rộng của FID, được sử dụng để đánh giá chất lượng của các video tạo sinh. FVD tính toán sự khác biệt giữa phân phối của các đặc trưng trích xuất từ hai tập dữ liệu video (tập video gốc và tập video sinh tạo). Tương tự như FID, FVD sử dụng mạng Inception để trích xuất các đặc trưng từ các khung hình của video và sau đó tính toán sự khác biệt giữa các phân phối. Giá trị FVD càng thấp thì chất lượng video sinh tạo càng tốt. Các đánh giá về mặt thực nghiệm được tổng hợp trong Bảng 1.
Bảng 1. Đánh giá định lượng chất lượng của phương pháp đề xuất trên hai bộ dữ liệu CAMUS và Echonet-Dynamic
Hình 3 cho đánh giá định tính về chất lượng hình ảnh được tạo. Phương pháp đề xuất tổng hợp hiệu quả các hình ảnh siêu âm tim với chuyển động thực tế của vùng thất trái (LV), tuân thủ theo cấu trúc của bản đồ phân vùng. CDM gặp khó khăn trong việc duy trì cấu trúc giải phẫu nhất quán, đặc biệt là ở các khu vực có hiện tượng và biến dạng như vùng hình nón. Nguyên nhân có thể là do bản đồ phân vùng chỉ chứa vùng LV, gây khó khăn cho CDM trong việc tạo ra các đại diện đồng nhất. Việc sử dụng nhãn giả trong các khu vực này giúp khắc phục vấn đề, đảm bảo tính nhất quán trong các hình dạng siêu âm được tạo ra. Cách tiếp cận này cho thấy triển vọng trong việc xử lý sự biến đổi và phức tạp vốn có của dữ liệu siêu âm tim, như đã thấy trong các hình dạng đa dạng của các bộ dữ liệu siêu âm tim.
Đánh giá về phương pháp đề xuất – CDM
Phương pháp đề xuất là một mô hình khuếch tán video có điều kiện không cần đào tạo (CDM) cho việc tổng hợp siêu âm tim. Phương pháp này có thể tạo ra các hình ảnh siêu âm tim thực tế từ một bản đồ phân vùng cuối kỳ tâm trương duy nhất. Hiệu quả của mô hình trên hai bộ dữ liệu công khai CAMUS và EchoNet-Dynamic cho thấy mô hình đạt hiệu suất tốt về chất lượng hình ảnh cả định lượng và định tính. Thông qua các thí nghiệm, mô hình đề xuất có thể tạo ra các hình ảnh siêu âm tim tốt, đồng nhất theo thời gian và phù hợp về mặt không gian với bản đồ phân vùng đầu vào mà không cần dữ liệu đào tạo bổ sung. Cách tiếp cận này mở ra những khả năng mới cho việc tạo ra các hình ảnh siêu âm tim từ một bản đồ phân vùng duy nhất, có thể được sử dụng cho tăng cường dữ liệu, thích ứng miền và các ứng dụng khác trong lĩnh vực hình ảnh y tế.
Tác giả: TS. Trần Quốc Long, Trường ĐH Công nghệ – ĐH Quốc gia Hà Nội.
Biên tập: Quỹ đổi mới sáng tạo Vingroup (VinIF).
Tài liệu tham khảo
[1]. Salehi, M., Ahmadi, S.A., Prevost, R., Navab, N., Wein, W.: Patient-specific 3D Ultrasound Simulation Based on Convolutional Ray-tracing and Appearance Optimization. In: MICCAI. pp. 510–518 (2015).
[2]. Liang, J., Yang, X., Huang, Y., Li, H., He, S., Hu, Xindi, e.a.: Sketch guided and progressive growing GAN for realistic and editable ultrasound image synthesis. Medical Image Analysis 79, 102461 (2022).
[3]. Tomar, D., Zhang, L., Portenier, T., Goksel, O.: Content-Preserving Unpaired Translation from Simulated to Realistic Ultrasound Images. In: MICCAI. pp. 659– 669 (2021).
[4]. Phi, N.V., Duc, T.M., Hieu, P.H., Long, T.Q.: Echocardiography video synthesis from end diastolic semantic map via diffusion model. In: ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
[5]. Reynaud, H., Qiao, M., Dombrowski, M., Day, T., Razavi, R., Gomez, A., Leeson, P., Kainz, B.: Feature-Conditioned Cascaded Video Diffusion Models for Precise Echocardiogram Synthesis, p. 142–152 (2023).
[6]. Stojanovski, D., Hermida, U., Lamata, P., Beqiri, A., Gomez, A.: Echo from noise: synthetic ultrasound image generation using diffusion models for real image segmentation (2023).
[7]. Dhariwal, P., Nichol, A.Q.: Diffusion models beat gans on image synthesis. In: Ranzato, M., Beygelzimer, A., Dauphin, Y.N., Liang, P., Vaughan, J.W. (eds.) Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021, NeurIPS 2021, December 6-14, 2021, virtual. pp. 8780–8794 (2021).
[8]. Ho, J., Salimans, T.: Classifier-Free Diffusion Guidance (2022).
[9]. Meng, C., He, Y., Song, Y., Song, J., Wu, J., Zhu, J., Ermon, S.: Sdedit: Guided image synthesis and editing with stochastic differential equations. In: Proc. of ICLR (2022).