Thật khó để tưởng tượng các nghiên cứu Sinh học, Tin sinh học ngày nay sẽ được thực hiện như thế nào nếu bộ gen tham chiếu của loài người chưa được xây dựng. Bài viết này sẽ đi lại lịch sử của công trình dài 13 năm đó, những ý nghĩa to lớn nó đã mang lại cho loài người, cũng như những hạn chế của nó trong thời đại mới.
Lịch sử của bộ gen tham chiếu
Ôn lại kiến thức sinh học một chút, loài người chúng ta, trừ trường hợp sinh đôi cùng trứng, thì không một ai có một bộ gen giống nhau cả. Giữa 2 người, dù ít dù nhiều, luôn luôn tồn tại những sai khác nhỏ, chính vì thế câu hỏi đầu tiên, khi làm bộ gen tham chiếu, đó là lấy ai làm chuẩn? Dự án Human Genome Project (HGP) vào năm 1990 cũng đã đau đầu về câu hỏi đó. HGP là một dự án dài hơi (dự kiến hoàn thành trong 15 năm), với ngân sách khổng lồ (3 tỉ USD), được Viện Y tế Quốc gia và Bộ năng lượng của Mỹ khởi động, đã thu hút 20 phòng thí nghiệm từ 6 quốc gia. Tuy nhiên với hạn chế về công nghệ của thế kỉ 20, các nhà khoa học đành chọn giải pháp tốt nhất có thể trong khả năng của họ: chọn ngẫu nhiên một người tương đối khoẻ mạnh về mặt lâm sàng (RP11*) làm chuẩn, các nghiên cứu sau này sẽ dựa trên sự khác biệt của từng người với bộ chuẩn đó. Tất cả các khác biệt của loài người so với bộ gen này, sẽ đều được goi là “biến dị”. Quy trình đảm bảo danh tính của dự án này cao đến nỗi, những phòng lab, trung tâm nghiên cứu hay chính cá thể RP11 này cũng không biết mình được chọn trong gần 20 tình nguyện viên. Toàn bộ các ghi chép, nhãn về danh tính của mẫu đều được xáo trộn, phá huỷ hoàn toàn. Về mẫu đã chọn được, còn công nghệ thì sao? Trong những năm 1970-1980, liên tiếp những phát kiến quan trọng về gen đã khiến các nhà khoa học có động lực và cả độ liều lĩnh để thực hiện giải mã bộ gen người:
- 1977, giải trình tự Sanger, có thể giải trình tự được những đoạn từ 700-900 base.
- 1979, giải trình tự đoạn nhỏ (Shotgun sequencing): dựa vào việc clone từng đoạn nhỏ của DNA và áp dụng giải trình tự Sanger, sau đó dùng thuật toán lắp ghép lại, có thể giải trình tự của những đoạn 7-9 kilobase.
- 1980: Xác định được vị trí tương đối của các gen trên nhiễm sắc thể (NST) người. Có thể clone một số đoạn chính xác trên NST thông qua kĩ thuật fingerprinting.
- 1982: Hoàn thành bộ gen của thực khuẩn thể lambda dài 49 kilobase.
- 1991: Hoàn thành bộ gen virus đậu mùa dài 200 kilobase.

Kĩ thuật giải trình tự đoạn nhỏ xuất hiện như một ví dụ đầu tiên của việc áp dụng thuật toán vào phân tích dữ liệu sinh học. Tuy nhiên, nó cũng có hạn chế nhất định: nếu toàn bộ hệ gen không có đoạn nào lặp lại, thì các phần được cắt nhỏ ra sẽ đều độc nhất, việc lắp ghép sẽ rất dễ dàng. Tuy nhiên hệ gen càng có nhiều đoạn lặp lại, thì việc lắp ghép này sẽ càng khó.

- Bộ gen vi khuẩn chỉ chứa 1.5% các phần lặp lại
- Loài động vật phức tạp hơn, được nghiên cứu khá kĩ là ruồi giấm, cũng chỉ chứa 3% các phần lặp lại ở vùng nguyên nhiễm sắc.
- Và con người, ước tính có đến 50% các phần lặp lại ở khắp bộ gen.

Để giải quyết vấn đề này, một kĩ thuật tên là “giải trình tự đoạn nhỏ theo phân cấp” – hierarchical shotgun sequencing đã ra đời: bộ gen ban đầu sẽ được “cắt” ra thành các phần cỡ trung bình, có thể xác định được vị trí nhờ vào toạ độ đã được fingerprint, sau đó mới cắt nhỏ ra để thực hiện giải trình tự đoạn nhỏ. Thuật toán sẽ lắp ráp các đoạn nhỏ thành các đoạn cỡ trung bình, sau đó mới mở rộng để các đoạn này xếp chồng lên nhau. Lúc này, vấn đề các đoạn lặp sẽ chỉ ảnh hưởng trong nội bộ của các phần cỡ trung bình, chứ không ảnh hưởng đến toàn bộ hệ gen nữa.
Vậy là đã có giải pháp công nghệ, lúc này HGP quyết định sẽ thực hiện giải trình tự theo nguyên lý 2 pha:
- Pha 1 – Pha nháp: tạo ra các bản nháp, chứa các trình tự được giải mã và ghép nối ban đầu.
- Pha 2 – Pha hoàn thiện: mở rộng các đoạn đã được giải mã, phủ kín các khoảng hở do giải trình tự phân cấp.
Lưu ý đây là “Nguyên lý 2 pha”, chứ không phải tách làm 2 pha thực hiện. Tức là liên tục giải trình tự – hoàn thiện, chứ không phải giải trình tự xong xuôi rồi mới hoàn thiện bộ gen. Do quá trình giải trình tự được thực hiện cùng lúc ở rất nhiều phòng thí nghiệm (HGP ủng hộ tất cả các phòng thí nghiệm, từ thô sơ đến các “factory-like” tham gia dự án, vì họ cho rằng đây là tài sản chung của loài người), nên chất lượng trình tự cũng sẽ chênh lệch rất nhiều. Phần mềm PHRED được ra đời trong hoàn cảnh đó, giúp xác định “chất lượng” từng base của trình tự (phản ánh độ chính xác của base). PHRED rất vượt trội so với các phần mềm khác thời đó, đến tận bây giờ, cái tên “phred score” vẫn được dùng để chỉ chất lượng của từng base khi giải trình tự, bất kể bằng phương pháp nào.

Và cứ như vậy, bộ gen người được giải mã, có lúc tốc độ lên đến 1000 base trên giây. Ngày 07/10/2000, bản “nháp” cuối cùng được thông cáo báo chí. Bản nháp này bao phủ được 3.2 gigabase, trong đó vùng nguyên nhiễm sắc ước tính 2.9 gigabase, đã hoàn thiện được 1 gigabase, và phản ánh được 88% gen có trong cơ sở dữ liệu của RefSeq. Cho đến tận bây giờ, bộ gen tham chiếu vẫn đang trong giai đoạn “hoàn thiện”:
- University of California, Santa Cruz (UCSC) lắp ráp 10 phiên bản đầu tiên của bộ gen người, đặt tên từ hg1-10 (hg = human genome).
- Đến năm 2003, Trung tâm Thông tin Công nghệ Sinh học Quốc gia (National Center for Biotechnology Information – NCBI) phụ trách, tiếp tục lắp ráp từ phiên bản hg15-18 (đặt tên NCBI33-35) đến năm 2006.
- 2009, bộ gen tham chiếu ra mắt phiên bản hg19, lấy tên khác là GRCh37 – Genome Reference Consortium – human, đặt tên theo lần họp thứ 37 của hội nghị này)
- 2014, lần họp thứ 38 của GRC cho ra đời phiên bản hg38 (GRCh38), cũng là phiên bản mới nhất đến tận bây giờ.
Ý nghĩa của Bộ gen tham chiếu là gì?
Cũng như mọi đo đạc khác cho khoa học, ví dụ như các đơn vị SI, nếu không có 1 thang chuẩn, thì các nghiên cứu khoa học rất khó có thể kế thừa, cộng tác trên quy mô lớn. Bộ gen tham chiếu của loài người cũng vậy, nó được dùng như một mốc chuẩn, để khi nói về một biến dị, một gen, thì nhà khoa học ở Mỹ và Việt Nam sẽ cùng nói về một base, một toạ độ. Thêm vào đó, trước khi có bộ gen tham chiếu và công nghệ giải trình tự đoạn nhỏ, người ta chỉ có thể nghiên cứu các bệnh di truyền đơn gen. Khi có bộ gen tham chiếu rồi, toàn bộ các biến dị khắp bộ gen có thể được xác định, khởi đầu cho thời kì của các Nghiên cứu Tương quan toàn hệ gen (Genome Wide Association Study – GWAS):
- Năm 2002, nghiên cứu GWAS đầu tiên, tìm các biến dị liên quan đến nguy cơ nhồi máu cơ tim.
- 2005, thoái hoá điểm vàng theo tuổi, v.v…
- Đến năm 2017, đã có trên 3000 nghiên cứu GWAS, nghiên cứu trên 1800 loại bệnh lý, tính trạng, tìm ra hàng nghìn biến dị liên quan.
Nếu không có dự án HGP, thật khó để tưởng tượng các nghiên cứu di truyền hiện nay sẽ thế nào.
Hạn chế của bộ gen tham chiếu
Càng trở nên vĩ đại, bộ gen tham chiếu càng trở thành cái bóng quá lớn để vượt qua. Thứ nhất, càng được sử dụng nhiều, việc “nâng cấp” bộ gen tham chiếu càng trở nên phức tạp, vì mỗi lần nâng cấp sẽ thay đổi rất nhiều toạ độ của các gen, các bộ công cụ cũng phải thay đổi tương ứng. Các nghiên cứu sử dụng các phiên bản tham chiếu khác nhau cũng khó khăn hơn khi tham khảo, chia sẻ dữ liệu.
Thứ hai, bộ gen của RP11, về sau qua các nghiên cứu nhân chủng học hệ gen, được tìm ra là 1 người Âu – Phi. Nếu sử dụng để nghiên cứu các dân tộc gần gốc này thì không có quá nhiều vấn đề, tuy nhiên với các dân tộc xa hơn một chút, như Đông Á, thì có những đoạn khác biệt tương đối lớn, dẫn đến việc tạo ra nhiều nhiễu khi nghiên cứu.
Thứ ba, RP11 có “nguy cơ cao vê tiểu đường”, và như chúng ta đã nói ở trên, những khác biệt với bộ gen tham chiếu mới được tính là biến dị, điều này khiến những biến dị liên quan đến nguy cơ tiểu đường có khả năng bị bỏ qua cao hơn khi phân tích sử dụng bộ gen tham chiếu này.
Như vậy, bộ gen tham chiếu có những bias nhất định, và những bias đó sẽ ảnh hưởng đến các nghiên cứu sau này. “The reference genome was a huge triumph, but when it was done people weren’t thinking that much about population-geographic genetic variation,” giáo sư tin sinh Mark Gerstein của Yale University. Trong thời đại mới của Y học chính xác, đòi hỏi phải loại trừ những bias này nhiều nhất có thể. Đứng trước thực tế này, các nước như Hàn, Nhật hay Bắc Âu đều đã tạo ra bộ gen tham chiếu riêng của mỗi dân tộc mình.
Phần 2 của chủ đề này, người viết sẽ nói về các xu hướng mới trong việc điều chỉnh hay thậm chí là xây dựng mới bộ gen tham chiếu, đồng thời hi vọng có đủ sức để viết một chút vè các phân tích Tin sinh học cơ bản.
Bài viết tham khảo:
- Initial sequencing and analysis of the human genome. Nature 409, 860–921 (2001).
- Buffalo gave us spicy wings and the ‘book of life.’ Here’s why that’s undermining personalized medicine. Stat news
- Is it time to change the reference genome? Genome Biology 159 (2019)
*Thực tế bộ gen tham chiếu được xây dựng từ mẫu ngẫu nhiên của 20 tình nguyện viên, trong đó 70% đến từ RP11, 23% từ 10 người khác, phần còn lại đến từ trên 50 nguồn khác nhau. Trong bài nói tóm tắt để nội dung dễ truyền tải hơn.
Nguyễn Thành Nguyên
(Phòng Tin sinh ứng dụng, VinBigdata)