Ngày 27/05/2021 vừa qua, các nhà nghiên cứu của hiệp hội Telomere-to-Telomere đã giải mã thêm 200 triệu base và 115 vùng gen mã hóa protein trên hầu hết nhiễm sắc thể so với bộ gen tham chiếu hiện tại. Đây được coi là một thành tựu lớn tiếp theo về giải trình tự gen người kể từ năm 2013.
Trong vòng 20 năm từ lần đầu tiên dự án giải trình tự gen người được công bố bởi Human Genome Project và công ty công nghệ sinh học Celera Genomics, bộ gen người vẫn liên tục được hoàn thiện và cập nhật. Vào lúc đó, ước tính có khoảng 15% độ dài toàn hệ gen vẫn chưa giải trình tự thành công do giới hạn về công nghệ, khiến các nhà nghiên cứu không thể tìm ra vị trí chính xác của một số đoạn DNA, đặc biệt là những vùng gen lặp lại. Nhờ vào sự nỗ lực không ngừng nghỉ, các nhà khoa học đã đạt được một số bước tiến đáng kể: giảm tỉ lệ những vùng còn thiếu xuống còn 8% trên bộ gen tham chiếu GRCh38 – được phát hành vào năm 2013.
Mới đây, các nhà nghiên cứu trong hiệp hội Telomere-to-Telomere (T2T Consortium) – một hiệp hội hợp tác quốc tế bao gồm khoảng 30 tổ chức khác nhau, đã xác định thêm một lượng lớn những vùng còn thiếu. Trong bản preprint đăng ngày 27 tháng 5 năm 2021 có tên “The complete sequence of a human genome”, nhà gen học Karen Miga và các cộng sự ở đại học California – Santa Cruz, cho biết họ đã thành công giải mã 8% còn lại này, qua đó phát hiện ra khoảng 115 gen mới, trong tổng số 19.969 gen.
“Thật tuyệt vời khi có giải pháp cho những vùng phức tạp”, Kim Pruitt, nhà tin sinh học tại Trung tâm Thông tin Công nghệ Sinh học Quốc gia Hoa Kỳ (NCBI) ở Bethesda, Maryland cho biết. Bà gọi kết quả này là “một cột mốc đáng nể”.
Công nghệ giải trình tự mới
Bộ gen mới được giải trình tự – có tên là T2T-CHM13 – bổ sung gần 200 triệu cặp base vào bộ gen người phiên bản 2013.
Khác với những lần trước, thay vì lấy mẫu DNA trực tiếp từ người, các nhà nghiên cứu đã sử dụng một dòng tế bào có nguồn gốc từ thai trứng (chửa trứng), một loại mô hình thành ở người khi tinh trùng thụ tinh với trứng không có nhân. Tế bào thu được chỉ chứa các nhiễm sắc thể từ người cha, vì vậy các nhà nghiên cứu không cần phân biệt giữa hai bộ nhiễm sắc thể đến từ hai người khác nhau (bố và mẹ).
Tác giả Miga cho rằng công nghệ giải trình tự gen mới từ Pacific Biosciences ở Menlo Park, California, nắm vai trò đặc biệt quan trọng trong phát kiến này. Công nghệ của PacBio sử dụng la-de để quét những đoạn DNA dài (có thể lến đến 20.000 base) tách từ tế bào. Các công nghệ truyền thống thường chỉ đọc được những đoạn DNA ngắn vài trăm base, và sau đó lắp ráp các đoạn này lại giống như ghép các mảnh câu đố. Việc lắp ráp các đoạn dài thường đơn giản hơn nhiều, vì chúng chứa nhiều đoạn chồng lên nhau nhiều hơn – một đặc điểm giúp việc lắp ghép dễ dàng hơn.
Tuy vậy, T2T-CHM13 chưa phải không phải là bộ gen tham chiếu cuối cùng. Nhóm nghiên cứu của T2T vẫn gặp khó khăn khi phân giải một số vùng, và ước tính có khoảng 0,3% hệ gen có thể vẫn còn lỗi. Mặc dù không còn đoạn nào trống trên hệ gen nữa, việc đảm bảo chất lượng trên những vùng lỗi này vẫn tương đối khó khăn, tác giả Miga cho biết. Bên cạnh đó, tế bào tinh trùng dùng để tạo thành thai trứng mang nhiễm sắc thể X nên các nhà nghiên cứu chưa thể giải trình tự nhiễm sắc thể Y – thường kích hoạt sự phát triển sinh học của nam giới.
Hàng trăm bộ gen khác đã sẵn sàng để giải trình tự
Dù đã hoàn chỉnh, T2T-CHM13 chỉ đại diện cho bộ gen của một người. Hiệp hội T2T đã hợp tác với hiệp hội Human Pangenome Reference, với mục đích trong vòng 3 năm tới sẽ giải mã hơn 300 bộ gen người trên khắp thế giới. Tác giả Miga nói rằng các nhóm khác có thể sử dụng T2T-CHM13 để tham khảo các phần khác biệt của bộ gen giữa các cá nhân. Nhóm của Miga cũng có kế hoạch giải trình tự toàn bộ bộ gen có chứa nhiễm sắc thể của cả cha và mẹ, đồng thời đang giải trình tự nhiễm sắc thể Y, sử dụng chính các phương pháp mới để tìm những vùng còn thiếu.
Tác giả Miga mong đợi rằng các nhà nghiên cứu di truyền học sẽ nhanh chóng xác định được các vùng mới được giải trình tự này có liên quan đến các bệnh ở người hay không. Bà nói: “Khi bộ gen của con người mới xuất hiện, chúng ta không có sẵn các công cụ cần thiết, nhưng hiện nay thông tin về chức năng của các gen mới được giải trình tự có thể được tìm ra nhanh hơn nhiều, bởi vì chúng ta đã có rất nhiều tài nguyên trong tay”.
Miga hy vọng rằng trình tự bộ gen của con người trong tương lai sẽ bao gồm tất cả, kể cả những phần mới được giải trình tự – chứ không chỉ những phần dễ đọc. Điều này sẽ dễ dàng hơn khi bộ gen tham chiếu đã được hoàn chỉnh và các trở ngại kỹ thuật đã được giải quyết. Bà nói: “Chúng ta cần hướng đến một tiêu chuẩn mới trong nghiên cứu hệ gen, khi các kĩ thuật này trở thành thường quy chứ không còn là điều gì đó đặc biệt.”
Việt Nam cũng đang xây dựng bộ gen tham chiếu của chính mình
Mặc dù bộ gen hoàn chỉnh của T2T-CHM13 đã cho chúng ta thấy một cái nhìn toàn cảnh hơn về bộ gen của con người, nhưng trước mắt, nó vẫn chưa thể thay thế GRCh38 vì thiếu những bộ dữ liệu chú giải đi kèm. Những nghiên cứu tin sinh vì vậy vẫn phải tiếp tục đương đầu với những hạn chế của GRCh38, ví dụ như bộ gen thiên lệch quá nhiều cho người Âu – Mỹ, thiếu sót nhiều cho cánh ngắn p của các nhiễm sắc thể hướng tâm (13, 15, 21, 22), v.v… Trong các năm gần đây, đặc biệt là các quốc gia châu Á như Hàn, Nhật đã đầu tư và tự xây dựng bộ gen tham chiếu riêng của dân tộc mình, tiến thêm một bước đến y học chính xác. Nhật Bản đã hai lần cập nhật bộ gen tham chiếu, và với lần gần đây nhất xuất bản tháng 1/2021, bộ gen tham chiếu của Nhật Bản đã đạt kích thước 3.08 tỉ base, và chỉ còn gần 500 khoảng trống. Để đạt được thành tựu như vậy, nhóm nghiên cứu tại Nhật đã sử dụng kết hợp DNA của 3 người tình nguyện cùng 5 công nghệ giải trình tự khác nhau.
Hiện nay VinBigdata đã lên kế hoạch xây dựng và chú giải bộ gen tham chiếu riêng của người Việt. Dự án này sẽ tận dụng dữ liệu từ các dự án đã được thực hiện tại VinBigdata cùng những công nghệ giải trình tự tiên tiến nhất hiện nay để tạo ra một hệ gen tham chiếu gần như hoàn chỉnh đầu tiên của người Việt. Dự án cũng có sự hợp tác với các đơn vị nghiên cứu hàng đầu trong nước và quốc tế như Đại học Y Hà Nội, Đại học Queensland, Úc, Đại học California, San Diego, Mỹ. Tiếp bước thành công của các nghiên cứu về hệ gen tham chiếu khu vực và quốc tế, dự án này hứa hẹn sẽ mang đến một nguồn tham chiếu hữu ích cho các nghiên cứu di truyền trên quần thể người Việt Nam.
Dịch giả: Anh-Vu Mai-Nguyen
Người hướng dẫn: Thanh Nguyen Nam Sy Vo
(Nguồn tham khảo: Nature)