Công nghệ giải trình tự thế hệ mới cho phép đồng thời giải mã hàng triệu trình tự DNA cùng lúc, nhờ vậy, nâng cao hiệu suất của quá trình giải mã bộ gen sinh vật nói chung và bộ gen người nói riêng.
Công nghệ giải trình tự thế hệ mới là gì?
Trái ngược với phương pháp microarray, phương pháp tiếp cận dựa trên trình tự xác định trực tiếp trình tự axit nucleic của một phân tử DNA hoặc cDNA nhất định.
Bước đột phá đầu tiên của việc giải trình tự gen DNA được cho là Dự án Bộ gen người (The Human Genome Project – HGP). Dự án sử dụng công nghệ giải trình tự thế hệ đầu tiên, được gọi là giải trình tự Sanger (phương pháp kết thúc chuỗi), kéo dài trong 13 năm, tiêu tốn 3 tỷ USD và hoàn thành vào năm 2003. So với phương pháp giải trình tự Sanger này (vốn thường sử dụng điện di mao quản), kỹ thuật giải trình tự song song đọc ngắn, khối lượng lớn là một cách tiếp cận khác về cơ bản. Kỹ thuật này đã thúc đẩy cách mạng hóa khả năng giải trình tự, cũng như đưa ra các phương pháp giải trình tự thế hệ thứ hai – hoặc giải trình tự thế hệ mới (Next Generation Sequencing – NGS) – giúp giải quyết các bộ dữ liệu quy mô lớn hơn, với chi phí định kỳ thấp hơn rất nhiều.
Cụ thể, giải trình tự thế hệ mới, còn được gọi là giải trình tự thông lượng cao, là thuật ngữ tổng hợp được sử dụng để mô tả một số công nghệ giải trình tự hiện đại khác nhau. Giải trình tự thế hệ mới cho phép đồng thời giải mã hàng triệu trình tự DNA cùng lúc, nhờ vậy, nâng cao hiệu suất của quá trình giải mã bộ gen sinh vật nói chung và bộ gen người nói riêng. Do đó, có thể nói, NGS đã tạo ra một cuộc cách mạng trong nghiên cứu hệ gen và sinh học phân tử.
Ưu điểm vượt trội của giải trình tự thế hệ mới
NGS có thể được sử dụng để phân tích các mẫu DNA, RNA và là một công cụ phổ biến trong hệ gen chức năng. Trái ngược với các phương pháp microarray, các phương pháp tiếp cận dựa trên NGS có một số ưu điểm bao gồm:
- Không yêu cầu kiến thức tiên nghiệm về bộ gen hoặc các đặc điểm của bộ gen.
- Khả năng phân giải đơn nucleotide, phát hiện các gen (hoặc các đặc điểm) liên quan, các bản sao ghép nối thay thế, các biến thể gen alen và đa hình nucleotide đơn.
- Tín hiệu có dải động cao hơn
- Đầu vào yêu cầu ít DNA / RNA hơn (chỉ cần nanogram vật liệu là đủ)
- Khả năng tái tạo cao hơn
Một số công nghệ giải trình tự thế hệ mới hiện nay
- Giải trình tự Illumina (Solexa): Đây hiện là tiêu chuẩn của giải trình tự thế hệ thứ 2.Giải trình tự Illumina hoạt động bằng cách xác định đồng thời các DNA bases và thêm chúng vào chuỗi axit nucleic. Công nghệ này có thể phân tích được các trình tự của một đoạn nucleotide lặp lại liên tục, đồng thời giúp cho thư viện DNA được mã hóa và tách riêng trong toàn bộ quá trình phân tích kết quả. Tuy nhiên, giải trình tự Illumina gặp phải hạn chế về chiều dài đọc (khoảng 200-250bp, đảm bảo chính xác tối đa 99% ở base thứ 250). Hơn nữa, công nghệ này cũng tốn kém về thời gian, khi mất tới 23 giờ để phân tích hệ gen người.
- Giải trình tự Roche 454 (hay còn gọi là pyrosequencing 454): Kỹ thuật này dựa trên nguyên lý “giải trình tự bằng tổng hợp” bao gồm: khởi động một sợi DNA đã được giải trình tự và giải trình tự sợi bổ sung bằng phản ứng của enzyme. Công nghệ giải trình tự pyrosequencing 454 có tính nhạy cao hơn hẳn so với phương pháp truyền thống, độ chính xác lên tới 99,9% với các đoạn 200 base và 99% với các đoạn 400 base. Chỉ trong vòng 10 giờ, hệ thống giải trình tự được 400-600 triệu bp, giúp tiết kiệm đáng kể chi phí so với khi sử dụng phương pháp Sanger để giải trình tự một số lượng lớn DNA. Tuy nhiên, pyrosequencing 454 vẫn tốn kém hơn so với hai công nghệ NGS khác được chỉ ra trong phần này. Và hạn chế lớn nhất của pyrosequencing 454 là việc khó phân tích chính xác của một loại axit nucleic lặp lại liên tục từ 6 nucleotide trở lên.
- Ion Torrent: Giải trình tự Proton/PGM: Sử dụng các máy đo pH siêu nhỏ gắn vào chip cảm ứng bán dẫn, giải trình tự Ion Torrent đo tín hiệu điện do ion H+ được giải phóng ra trong quá trình tổng hợp DNA. Đây cũng chính là điểm khác biệt của Ion Torrent so với hai công nghệ kể trên. Với việc sử dụng công nghệ bán dẫn chứ không phải quang học để đo tín hiệu, Ion Torrent có thể giải trình tự nhanh chóng, đồng thời giúp hệ thống máy móc trở nên gọn nhẹ. Công nghệ này chỉ mất từ 2-3 tiếng đồng hồ để phân tích hệ gen người, bên cạnh đó, cũng tiêu tốn ít chi phí hóa chất hơn so với các công nghệ NGS khác. Tuy nhiên, hai hạn chế lớn nhất mà Ion Torrent gặp phải chính là về chiều dài đọc (khoảng 100-250bp, đảm bảo chính xác tối đa 99% ở base thứ 250)
Đến nay, công nghệ giải trình tự đã phát triển tới thế hệ thứ ba. Nếu với NGS, DNA được chia thành các đoạn ngắn, được khuếch đại và sau đó được giải trình tự, thì các công nghệ thế hệ thứ ba không phá vỡ hoặc khuếch đại DNA, mà trực tiếp giải trình tự từng phân tử DNA đơn lẻ. Do đó, ưu điểm nổi bật của giải trình tự thế hệ thứ ba chính là đoạn đọc dài hoặc giải trình tự đơn phân tử, giúp khai thác nhiều thông tin có giá trị hơn và phát hiện một số loại biến thể nhất định. Như vậy, có thể nói, giải trình tự thế hệ thứ ba đã kết hợp được cả hai điểm mạnh của giải trình tự Sanger (đoạn đọc dài) và NGS (thông lượng cao). Với hai ưu điểm này, hiện nay, những đại diện mới nhất của công nghệ giải trình tự PacBio SMRT (giải trình tự gen tức thời đơn phân tử) và Oxford Nanopore Technologies (giải trình tự tức thời dựa trên tín hiệu điện phân tử). Về cơ bản, có thể so sánh PacBio, Oxford Nanopore và Illumina theo bảng dưới đây, hỗ trợ cho việc lựa chọn ứng dụng công nghệ giải trình tự phù hợp.
Illumina (Hiseq 4000) | PacBio (Sequel) | Oxford Nanopore (MinION) | |
Độ dài đoạn đọc | Khoảng 150 bp | 10-15kb | 900kb |
Số lượng lần đọc | 2,5-5 triệu | 500.000 | Khoảng 1 triệu |
Tỉ lệ lỗi | <1% | 10-15% | 5-15% |
Ưu điểm | Tính chính xác cao | Giải trình tự đoạn dài | Giải trình tự đoạn dài- Thiết bị dễ dàng di chuyển |
Ứng dụng giải trình tự gen thế hệ mới
Một trong những hướng ứng dụng của giải trình tự gen thế hệ mới chính là giải trình tự DNA. Đưa NGS vào giải trình tự DNA đang giúp các nhà khoa học tiến hành giải trình tự toàn bộ hệ gen (Whole genome sequencing – WGS) và giải trình tự toàn bộ exon (Whole exome sequencing – WES), trên cơ sở đó, tìm kiếm và xác định các biến dị di truyền SNP, InDel, CNV, SV… có trong cá thể, quần thể đối với những loài đã có hệ gen tham chiếu. Đây là tiền đề giải quyết nhiều bài toán về tin y sinh hiện nay, như dự đoán nguy cơ mắc bệnh dựa trên đặc trưng hệ gen; theo dõi đáp ứng điều trị; hay đánh giá đa dạng quần thể bằng cách xác định tần số a-len…
Dựa vào công nghệ giải trình tự gen thế hệ mới, Viện Nghiên cứu Dữ liệu lớn VinBigdata cũng đang phát triển nhiều dự án Tin y sinh như Hệ thống quản lý và phân tích dữ liệu y sinh; Giải pháp hỗ trợ dự đoán nguy cơ mắc bệnh hay tác dụng phụ của thuốc; Xây dựng Hệ gen tham chiếu của người Việt. Đến nay, Hệ thống quản lý, phân tích và chia sẻ dữ liệu y sinh VinGen Data Portal đã được ra mắt cộng đồng vào tháng 12/2020. Đây là cổng dữ liệu gen lớn nhất Việt Nam, hiện đang lưu trữ khoảng 1200 terabyte dữ liệu và gần 5000 mẫu sinh học từ dự án 1000 hệ gen người Việt và các dự án ứng dụng khác.
Người dùng có thể truy cập https://genome.vinbigdata.org/ để tra cứu theo gen/biến thể gen, theo từng cá thể hoặc theo ID biến dị từ dbSNP (rsID). Đồng thời, VinGen Data Portal cũng cung cấp tính năng tham chiếu (theo a-len HLA – phức hợp MHC ở người, a-len gen dược học và Panel gen một số bệnh) hay phân tích toàn bộ exome và genome; phân tích thường quy và chuyên biệt hay phân tích/mẫu toàn hệ gen chỉ mất dưới 30 phút. Đặc biệt, VinGen Data Portal vừa cập nhật tính năng “export as file”, giúp người dùng tự thực hiện một số phân tích nhỏ và trích xuất với tất cả siêu dữ liệu và dữ liệu đầu ra (metadata). Hệ thống hy vọng sẽ trở thành cổng thông tin tham chiếu đáng tin cậy dành cho cộng đồng nghiên cứu trong và ngoài nước, tạo tiền đề phát triển cho y học chính xác tại Việt Nam.
(Nguồn: Tổng hợp)