Bất cứ định nghĩa khoa học cũng thay đổi qua thời gian. Gene, một trong những “xương sống” của các ngành sinh học, cũng không đứng ngoài xu thế đó. Trải qua hơn 100 năm xuất hiện, thuật ngữ này đã trải qua ít nhất ba giai đoạn với những thay đổi căn bản, phản ánh sự mở rộng về nhận thức của chúng ta.
Lịch sử khái niệm gene trên thế giới
Vào cuối thế kỉ 19, khi Mendel tìm ra quy luật di truyền, mặc dù không nhắc đến từ “gene”, nhưng ông nhắc đến “những yếu tố tế bào”, hay “nhân tố di truyền” (nguyên văn tiếng Đức: Zellelemente), mang yếu tố di truyền, quyết định đặc tính của cơ thể sống. Mãi đến năm 1909, Johannsen mới đặt tên cho những “nhân tố” này là “gene”, xuất phát từ từ Hy Lạp γόνος, gonos – sinh sôi, nảy nở.
Đầu những năm 1900, người ta đã biết đến các sợi nhiễm sắc thể (NST), ban đầu các sợi này được cho là những “nhân tố” được Mendel tìm thấy, và chúng tuân theo Quy luật phân ly và Quy luật phân ly độc lập (các gene khác nhau, quy định những tính trạng khác nhau thì di truyền độc lập với nhau). Nhưng chỉ một thời gian ngắn sau đó, những năm 1905-1910, những bằng chứng về việc có những gene thường xuyên di truyền cùng nhau, chứng tỏ gene là một thành phần nhỏ hơn cả NST, những gene khác NST thì tuân theo phân ly độc lập, những gene nằm gần nhau trên NST lại thường di truyền cùng nhau. Nhờ những tính chất này, những năm 1915-1929, thông qua các nghiên cứu của Morgan, Dobzhansky, Muller và Painter, một “bản đồ” vị trí tương đối của các gene của loài ruồi giấm đã được tạo ra. Nhìn chung, vào năm 1930, định nghĩa về gene đã tương đối vững chắc: là đơn vị nhỏ nhất của di truyền, nằm tại một vị trí trên NST. Gene có thể di truyền tính trạng, tái tổ hợp, đột biến, và có chức năng cụ thể. Đây có thể coi là thời kì gene mang định nghĩa “Cổ điển”: là một thực thể vật lý, có cấu trúc ba chiều siêu nhỏ, có cấu trúc di truyền riêng biệt, có khả năng biến đổi và truyền lại biến đổi đó.
Những năm 1930-1950, giữa thời kỳ hoàng kim của cơ học Newton, “khi mà gần như mọi thứ đã được nghiên cứu hết”, một thứ tồn tại dưới dạng vật lý như gene, mà lại không có toạ độ, hay kích thước là điều không thể chấp nhận được. Những thí nghiệm tại đại học Rockefeller tìm ra DNA là vật chất di truyền, khi những thí nghiệm trên Thực khuẩn thể chứng minh rằng thành phần chứa DNA chịu trách nhiệm cho việc nhân lên của chúng. Tuy nhiên, bước nhảy vọt thực sự trong lý thuyết di truyền DNA lại do Watson, Crick, Wilkin và Rosalind cùng khám phá ra vào năm 1953, đó là cấu trúc sợi xoắn kép của 2 chuỗi nucleotide. Từ đây, gene đã có cấu trúc cụ thể, có toạ độ cụ thể trên NST. Những năm sau đó, những nghiên cứu chứng minh rằng gene được phiên mã thành mRNA, và sau đó thông tin gene được tiếp tục dịch mã thành Protein. Lý thuyết “một gene, một enzyme” được đề xuất, và được mở rộng thành “một gene – một mRNA – một polypeptide”. Thời kì này của gene, được coi là Thời kì Tân cổ điển.
Nhưng, cũng như việc cơ học lượng tử thay thế tính “rõ ràng” cơ học cổ điển, định nghĩa tuyệt đối về gene cũng không tồn tại được lâu. Những vùng gene khởi động khác nhau của cùng một gene được tìm ra, song hành cùng cơ chế cắt nối thay thế RNA đã thể hiện việc một gene có thể tạo ra nhiều bản sao khác nhau. Tuy nhiên, dù gì thì DNA và RNA vẫn tương đối tương đồng, độ dài mặc dù có thể thay đổi nhưng thứ tự về cơ bản vẫn không đổi, và một mRNA vẫn cứ tạo ra một polypeptide. Sau đó, những năm 2007 và 2011, lại thêm 2 viên đạn lớn bắn vào thành trì vững chắc của định nghĩa Tân cổ điển: hiện tượng chỉnh sửa RNA và chia sẻ gene. Một chuỗi mRNA hoàn chỉnh, vẫn có thể bị chỉnh sửa, dẫn đến chuỗi amino acid khác hoàn toàn so với những gì được dự đoán. Hiện tượng chia sẻ gene còn được biết đến với tên gọi “protein moonlighting”, khi cùng một gene, cùng một chuỗi polypeptide, nhưng lại hoạt động khác nhau trên những tế bào khác nhau. Tuy nhiên, cốt lõi về định nghĩa của gene, “một thực thể vật lý, có toạ độ cụ thể” vẫn vô cùng vững chắc, cho đến khi những dự án giải mã trình tự toàn hệ gen xuất hiện.
- Trong tế bào nhân thực, gần như không có giới hạn nào cho việc phiên mã, gần như cả NST, hay cả bộ gene đều liên quan đến quá trình phiên mã. Gần như không thể viết ra quan hệ 1:1:1 giữa gene, bản phiên mã và sản phẩm cuối cùng được. (Gingeras 2007, Pearson 2006, (The FANTOM Consortium and RIKEN Genome Exploration Group 2005; The ENCODE Project Consortium 2007; 2012)
- Exon của gene này, có thể trở thành một phần bản phiên mã của gene khác. Ước tính có khoảng 4-5% những đoạn gene lặp lại có thể tạo ra 1 protein giả định duy nhất. (Parra et al. 2006)
- Trong tế bào nhân thực, có một số gene tồn tại rải rác ở nhiều phần khắp bộ NST. (Landweber 2007)
- Trạng thái hiện tại của 1 gene có thể truyền lại thế hệ sau, tức là kể cả những thông tin không được lưu sẵn trên chuỗi DNA. (Holliday 1987; Gerhart and Kirschner 2007; Jablonka and Raz 2009)
- Hiện tượng Phục hồi di truyền: sau một vài thế hệ có đột biến, một số đột biến được phục hồi lại trạng thái ban đầu một cách chính xác. (Lolle et al. 2005)
- Ngoài những gene sản xuất protein, có rất nhiều gene chỉ tạo ra RNA. Bên cạnh tRNA và rRNA được phát hiện khá sớm, có liên quan trực tiếp để sản xuất protein, những long non coding RNA, micro RNA, hay circular RNA cũng có những chức năng sinh học cụ thể. (Eddy 2001; Carninci and Hayashizaki 2007; Carninci et al. 2008.
Những phát hiện này, làm định nghĩa rõ ràng của gene trở nên mơ hồ, cảm tưởng như một như thời kì “mông muội” mới. Vậy là, chúng ta đã đi suốt một chặng đường dài, để đi từ định nghĩa của Johannsen, với gene là “đơn vị di truyền”, đến định nghĩa của những năm 1960 – một chuỗi DNA tạo ra một chuỗi polypeptide. Và rồi thêm một nửa thế kỉ nữa để thấy rằng định nghĩa đó vẫn chưa bao hàm hết ý nghĩa của gene. Gene không phải là đơn vị duy nhất có thể di truyền, gene và các sản phẩm của gene tương tác với nhau thành một mạng lưới phức tạp. Giờ đây, chúng ta sử dụng một định nghĩa tương đối “an toàn” cho gene: Sách giáo khoa sinh học lớp 12 của Việt Nam và cuốn Biochemistry 6th, Lehninger đều nói: Gene là một đoạn của phân tử DNA mang thông tin và mã hoá cho một chuỗi polypeptide hay một phân tử RNA. Có hai loại gen: gen điều hoà (hình thành nên Protein) và gen cấu trúc (hình thành thông tin).
Tương lai của nghiên cứu hệ gen
Từ những phân tích kể trên, có thể thấy, gene vốn là một khái niệm khoa học tương đối quen thuộc, nhưng hoá ra vẫn còn đang tiếp tục phát triển. Theo thời gian, mỗi dự án giải trình tự lại đem đến một hiểu biết mới về khái niệm này.
Điển hình như dự án Assembly of a pan-genome from deep sequencing of 910 humans of African descent | Nature Genetics, giải trình tự và lắp ráp hệ gen của hơn 900 mẫu người châu Phi, đã phát hiện ra có đến 10% phần DNA hoàn toàn mới so với hệ gen tham chiếu hiện hành (GRCh38), với tổng độ dài lên đến 296 triệu base, chứa trong 125,715 đoạn khác nhau. Mặc dù chức năng của phần lớn những đoạn mới phát hiện này đều chưa được khám phá, nhưng có đến 315 đoạn nằm tại các gene mã hoá protein, hứa hẹn giải đáp những đặc điểm di truyền đặc trưng của người châu Phi.
Tiếp nối dự án trên, dự án giải mã hệ gen người Thuỵ Điển Discovery of Novel Sequences in 1,000 Swedish Genomes | Molecular Biology and Evolution | Oxford Academic (oup.com), cũng đã phát hiện ra 46 triệu base mới trong quần thể người Thuỵ Điển, nằm trong 61,044 đoạn riêng biệt, đặc biệt đã tìm thấy nhiều đoạn nằm rải rác trong những trình tự DNA mới của châu Phi, hé lộ nguồn gốc di cư của quần thể này.
Tại Việt Nam, từ năm 2018, VinBigdata đã bắt tay xây dựng dự án giải mã 1000 hệ gen người Việt. Đây là một trong những cơ sở dữ liệu giúp phát triển hệ thống Phân tích, Quản lý và chia sẻ dữ liệu y sinh lớn nhất Việt Nam VinGen Data Portal. Hiện hệ thống đang lưu trữ hơn 1200 TeraByte dữ liệu và gần 5000 mẫu sinh học liên quan đến dự án 1000 hệ gen người Việt và các dự án ứng dụng khác theo chuẩn tiêu chuẩn của Viện Y tế Quốc gia Hoa Kỳ (NIH). Thiết kế của hệ thống đảm bảo bảo mật thông tin theo Quy định chung về bảo mật thông tin (GDPR) của Châu Âu. Từ thành công của dự án này, VinBigdata tiếp tục phối hợp với Đại học Y Hà Nội và đại học Queensland (Úc), để lên kế hoạch xây dựng và chú giải hệ gen tham chiếu của người Việt, làm tiền đề cho các nghiên cứu hệ gen tại Việt Nam và khu vực. Dự án có tiềm năng phát hiện ra các đoạn gen mới đặc trưng của người Việt Nam, làm tiền đề cho y học chính xác cất cánh.
Bài viết được dịch và tóm tắt lại theo: The Evolving Definition of the Term “Gene” – Genetics, 2017
Nguyễn Thành Nguyên – Phòng Tin Y sinh ứng dụng, VinBigdata