Giải Nobel Hóa học 2024: Bí mật của protein được hé lộ qua điện toán và trí tuệ nhân tạo

Các nhà hóa học từ lâu đã mơ ước hiểu rõ và làm chủ được protein – cỗ máy hóa học của sự sống. Giấc mơ này giờ đây đang trong tầm tay. Giải Nobel Hóa học 2024 được trao cho những sáng tạo tuyệt vời vì sự nỗ lực đó: Demis Hassabis và John M. Jumper thành công trong việc sử dụng trí tuệ nhân tạo để dự đoán cấu trúc của gần như tất cả các loại protein đã biết; David Baker đã tìm ra cách làm chủ được các viên gạch của sự sống và tạo ra các protein hoàn toàn mới. Tiềm năng của những khám phá này là khổng lồ.

Hóa học của sự sống – điều kỳ diệu xảy ra như thế nào?

Câu trả lời nằm ở sự tồn tại của các protein, có thể được mô tả như là những công cụ hóa học tuyệt vời. Chúng nhìn chung được xây dựng/tổ hợp từ 20 loại axit amin có thể kết hợp với nhau theo vô số phương cách. Sử dụng thông tin lưu trữ trong ADN như một bản thiết kế, các axit amin được liên kết với nhau trong các tế bào của chúng ta để tạo thành những chuỗi dài.

Sau đó, ma thuật của các protein diễn ra: chuỗi axit amin xoắn và gấp lại thành một cấu trúc ba chiều riêng biệt, thậm chí độc nhất (Hình 1). Cấu trúc này mang lại các chức năng đặc thù cho protein. Một số protein trở thành các khối xây dựng hóa học để tạo nên cơ bắp, sừng hoặc lông vũ; một số khác có thể trở thành hormone hoặc kháng thể. Nhiều protein cũng hình thành các enzyme là các chất thúc đẩy phản ứng hóa học của sự sống với độ chính xác đáng kinh ngạc. Các protein định vị trên bề mặt tế bào cũng rất quan trọng bởi chúng hoạt động như các kênh giao tiếp giữa tế bào và môi trường xung quanh.

Thật khó để có thể mô tả được hết tiềm năng chứa đựng trong các khối xây dựng hóa học của sự sống – 20 loại axit amin này. Giải Nobel Hóa học 2024 tập trung vào việc hiểu và làm chủ chúng ở một cấp độ hoàn toàn mới. Một nửa giải thưởng được trao cho Demis Hassabis và John Jumper, những người đã sử dụng trí tuệ nhân tạo (AI) để giải thành công câu hỏi mà các nhà hóa học đã phải vật lộn suốt hơn 50 năm: dự đoán cấu trúc ba chiều của protein từ chuỗi axit amin. Thành công này mang lại khả năng dự đoán cấu trúc của gần như toàn bộ 200 triệu protein đã được biết đến. Một nửa giải Nobel còn lại được trao cho David Baker. Ông đã phát triển các phương pháp máy tính toán điện toán để đạt được điều mà nhiều người từng cho rằng là không thể: tạo ra các protein chưa từng tồn tại và trong nhiều trường hợp, có những chức năng hoàn toàn mới.

Giải Nobel Hóa học 2024 vinh danh hai khám phá khác nhau nhưng có mối liên hệ chặt chẽ với nhau. Để hiểu những thách thức mà các nhà khoa học đạt giải năm nay đã vượt qua, chúng ta cần nhìn lại giai đoạn khởi đầu của lĩnh vực hóa sinh hiện đại.

Những hình ảnh mờ nhạt đầu tiên của protein

Từ thế kỷ XIX, các nhà hóa học đã biết rằng protein rất quan trọng đối với các quá trình của sự sống, nhưng mãi đến những năm 1950, các công cụ hóa học mới đủ chính xác để các nhà nghiên cứu bắt đầu khám phá protein chi tiết hơn. John Kendrew và Max Perutz, các nhà nghiên cứu tại Đại học Cambridge, đã có một phát hiện mang tính đột phá khi vào cuối thập kỷ đó, thành công sử dụng phương pháp tinh thể học tia X để hiển lộ những mô hình ba chiều đầu tiên của protein. Để ghi nhận những khám phá này, họ đã được trao giải Nobel Hóa học năm 1962.

***Hình 1. Một protein có thể bao gồm từ vài chục cho đến vài nghìn axit amin:*** *chuỗi axit amin này gấp lại thành cấu trúc 3D quyết định chức năng của protein*

Sau đó, các nhà nghiên cứu đã chủ yếu sử dụng phương pháp tinh thể học tia X – và thường phải nỗ lực rất nhiều – để tạo ra hình ảnh của khoảng 200.000 protein khác nhau. Đây chính là nền tảng dẫn đến giải Nobel Hóa học 2024.

Một câu đố: cấu trúc độc nhất của protein đến từ đâu?

Christian Anfinsen, khoa học gia người Mỹ, đã có một phát hiện sớm quan trọng khác. Bằng cách sử dụng nhiều thủ thuật hóa học khác nhau, ông đã thành công trong việc làm cho một protein mở cấu trúc ra và sau đó tự gấp cấu trúc lại. Điều thú vị là protein này luôn “dự đoán lại” chính xác cùng một hình dạng trong mỗi lần. Năm 1961, ông kết luận rằng cấu trúc ba chiều của một protein hoàn toàn được quyết định bởi chuỗi axit amin trong nó. Phát hiện này đã giúp ông được trao giải Nobel Hóa học năm 1972.

Tuy nhiên, luận lý của Anfinsen chứa đựng một nghịch lý mà một nhà khoa học Mỹ khác, Cyrus Levinthal, đã chỉ ra vào năm 1969. Ông này tính toán rằng, ngay cả khi một protein chỉ gồm 100 axit amin, về mặt lý thuyết, protein đó có thể “dự đoán” ít nhất 10⁴⁷ cấu trúc ba chiều khác nhau. Nếu chuỗi axit amin của protein được gấp một cách ngẫu nhiên, sẽ mất thời gian dài hơn cả tuổi của vũ trụ để tìm ra đúng cấu trúc protein mà nó hướng đến. Nhưng trong tế bào, quá trình này chỉ mất vài phần nghìn của một giây. Vậy thì chuỗi chuỗi axit amin thực sự đã tổ hợp thế nào?

Khám phá của Anfinsen và nghịch lý của Levinthal cho thấy rằng việc tổ hợp nên một protein là một quá trình được định trước. Và quan trọng là, tất cả thông tin về cách protein được tổ hợp phải có trong chuỗi axit amin.

Lời thách đấu vĩ đại cho ngành hóa sinh học

Những hiểu biết trên dẫn đến nhận thức quan trọng: nếu các nhà hóa học biết được chuỗi axit amin của một protein, họ có khả năng dự đoán cấu trúc ba chiều của protein đó. Đây là một ý tưởng đầy hứa hẹn. Nếu thành công, các nhà khoa học sẽ không cần phải sử dụng phương pháp tinh thể học tia X phức tạp nữa, từ đó tiết kiệm được rất nhiều thời gian và công sức. Ngoài ra, họ cũng có thể tạo ra cấu trúc của tất cả các protein mà không thể làm được với phương pháp tinh thể học tia X.

Những kết luận hợp lý này đã đặt ra thách thức lớn cho lĩnh vực hóa sinh: vấn đề dự đoán. Để khuyến khích sự phát triển nhanh chóng trong lĩnh vực này, vào năm 1994, các nhà nghiên cứu đã khởi động một dự án mang tên Đánh giá chủ đạo về việc dự đoán cấu trúc protein (CASP). Dự án dần trở thành một cuộc thi: hai năm một lần, các nhà nghiên cứu trên toàn thế giới được cung cấp các chuỗi axit amin trong các protein mà cấu trúc của chúng vừa mới được xác định, nhưng cấu trúc này được giữ bí mật. Thách thức đặt ra là phải dự đoán được cấu trúc protein dựa trên chuỗi axit amin đã biết.

Dự án CASP thu hút nhiều nhà nghiên cứu, nhưng việc giải quyết vấn đề dự đoán tỏ ra vô cùng khó khăn. Kết quả của các nhà khoa học tham gia cung cấp và cấu trúc thực tế hầu như không có nhiều tiến bộ. Đột phá xảy ra vào năm 2018, khi một kiện tướng cờ vua, chuyên gia thần kinh học và người tiên phong trong AI tham gia cuộc chơi.

Kiện tướng cờ vua bước vào “Thế vận hội Protein”

Chúng ta hãy cùng lướt nhanh về tiểu sử của Demis Hassabis: ông bắt đầu chơi cờ từ năm 4 tuổi và đạt trình độ kiện tướng khi 13 tuổi. Ở tuổi thiếu niên, ông bắt đầu sự nghiệp lập trình viên và phát triển trò chơi thành công. Sau đó, ông tìm hiểu về AI và nghiên cứu thần kinh học, nơi ông có nhiều khám phá mang tính cách mạng. Hassabis đã sử dụng những gì ông học được về bộ não để phát triển các mạng nơ-ron tốt hơn cho AI. Năm 2010, ông đồng sáng lập DeepMind, một công ty bậc thầy về phát triển các mô hình AI trong chơi cờ. Google mua lại DeepMind năm 2014 và hai năm sau, DeepMind gây chú ý toàn cầu khi đạt đến mức mà nhiều người coi là “chén thánh” của AI: đánh bại kiện tướng cờ vây – một trong những môn cờ cổ xưa nhất thế giới.

Tuy vậy, đối với Hassabis, cờ vây không phải là mục tiêu cuối cùng mà chỉ là phương tiện để phát triển các mô hình AI tốt hơn nữa. Sau chiến thắng này, nhóm của ông đã sẵn sàng đối mặt với những vấn đề quan trọng đối với nhân loại. Năm 2018, Hassabis đăng ký tham gia cuộc thi CASP lần thứ 13.

Chiến thắng bất ngờ của AI – Demis Hassabis

Trong những năm trước, cấu trúc protein mà các nhà nghiên cứu dự đoán cho CASP chỉ đạt độ chính xác cao nhất là 40%. Với mô hình AI AlphaFold, nhóm của Hassabis đạt độ chính xác gần 60%. Họ chiến thắng và kết quả xuất sắc này khiến nhiều người ngạc nhiên – một tiến bộ bất ngờ dù giải pháp vẫn chưa đủ tốt. Để thật sự được coi là thành công, dự đoán cần phải đạt được độ chính xác 90% so với cấu trúc đích.

Sau đó, Hassabis và nhóm cộng sự tiếp tục phát triển AlphaFold, nhưng dù cố gắng thế nào thì thuật toán cũng không thể hoàn thiện và sự thật khắc nghiệt này đưa họ đến ngõ cụt. Nhóm nghiên cứu trở nên mệt mỏi, nhưng một nhân viên tương đối mới lại đưa ra những ý tưởng quyết định về cách cải tiến mô hình AI. Đó là John Jumper.

John Jumper tham gia cuộc đấu cùng thử thách của lĩnh vực hóa sinh

John Jumper bị cuốn hút bởi vũ trụ. Đó là lý do anh bắt đầu học vật lý và toán học. Tuy nhiên vào năm 2008, khi anh bắt đầu làm việc tại một công ty sử dụng siêu máy tính để mô phỏng các protein và động lực học của chúng, anh nhận ra rằng kiến thức về vật lý có thể giúp giải quyết cả những vấn đề y tế.

Jumper mang niềm đam mê mới về protein này khi bắt đầu làm tiến sĩ vật lý lý thuyết vào năm 2011. Để tiết kiệm dung lượng của máy tính – thứ rất khan hiếm ở trường đại học – anh bắt đầu phát triển các phương pháp đơn giản và sáng tạo hơn để mô phỏng động lực học của các protein. Chẳng bao lâu sau, anh cũng nhận ra thách thức lớn của hóa sinh học. Năm 2017, khi vừa hoàn thành luận án tiến sĩ, anh nghe tin Google DeepMind đang bí mật tiến hành nghiên cứu dự đoán cấu trúc protein nên đã gửi đơn xin việc. Với kinh nghiệm về mô phỏng cấu trúc protein, Jumper đã đưa ra hàng loạt ý tưởng sáng tạo về cách cải thiện mô hình AlphaFold. Sau khi nhóm bắt đầu chững lại, anh được thăng chức. Jumper và Hassabis cùng lãnh đạo công việc cải tiến mô hình AI từ nền tảng.

Kết quả đáng kinh ngạc với mô hình AI cải tiến

Phiên bản mới – AlphaFold2 – chịu ảnh hưởng mạnh mẽ bởi kiến thức của Jumper về protein. Nhóm nghiên cứu cũng bắt đầu ứng dụng những tiến bộ đột phá mới nhất trong AI: các mạng nơ-ron transformers. Những mô hình này có thể tìm ra các mẫu trong lượng dữ liệu khổng lồ theo cách linh hoạt hơn trước và xác định một cách hiệu quả những yếu tố cần tập trung để đạt được mục tiêu cụ thể.

Nhóm nghiên cứu đã huấn luyện AlphaFold2 trên lượng thông tin khổng lồ trong kho dữ liệu chứa tất cả các cấu trúc protein đã biết và các chuỗi axit amin (Hình 2). Kiến trúc AI mới này bắt đầu cho ra các kết quả tốt, thật may, đúng lúc cho cuộc thi CASP lần thứ 14.

***Hình 2. Mô tả cách thức phần mềm AlphaFold2 hoạt động:*** *một phần hoạt động là việc huấn luyện mô hình AI dựa trên tất cả các chuỗi axit amin được biết và xác định các cấu trúc protein*

Năm 2020, khi ban tổ chức CASP đánh giá kết quả, họ hiểu rằng thách thức 50 năm của sinh hóa học đã bị vượt qua. Trong hầu hết các trường hợp, AlphaFold2 hoạt động gần như tương đương phương pháp tinh thể học tia X. Khi một trong những người sáng lập CASP, John Moult, kết luận cuộc thi vào ngày 4 tháng 12 năm 2020, ông hỏi – giờ chúng ta làm gì tiếp theo?

Chúng ta sẽ quay lại điều đó sau. Bây giờ, hãy quay ngược thời gian để làm sáng tỏ một người tham gia khác của CASP. Đây chính là người nhận nửa còn lại của Giải Nobel Hóa học 2024, người đã làm chủ nghệ thuật kiến tạo protein mới từ bản nháp.

Cuốn sách giáo khoa về tế bào đã thay đổi hướng đi của David Baker

Khi David Baker bắt đầu học đại học tại Đại học Harvard, ông chọn triết học và khoa học xã hội. Tuy nhiên, trong một khóa học về sinh học tiến hóa, ông đã chạm mặt phiên bản đầu tiên của cuốn sách giáo khoa kinh điển – Sinh học phân tử của tế bào (Molecular Biology of the Cell). Từ đó, định hướng cho cuộc đời của ông cũng thay đổi. Baker bắt đầu khám phá sinh học tế bào và như một lẽ tất nhiên ở điểm cuối cùng, bị cuốn hút bởi cấu trúc protein. Năm 1993, khi bắt đầu làm trưởng nhóm nghiên cứu tại Đại học Washington ở Seattle, ông giáp mặt với cái gọi là thử thách vĩ đại của hóa sinh học. Bằng những thí nghiệm thông minh, Baker bắt đầu nghiên cứu cách protein gấp lại cấu trúc, mang lại những hiểu biết mà sau này ông áp dụng khi bắt đầu phát triển phần mềm dự đoán cấu trúc protein vào cuối những năm 1990: Rosetta.

David Baker trình làng Rosetta tại CASP vào năm 1998, và so với các đối thủ, phần mềm đã hoạt động rất tốt. Thành công này dẫn đến một ý tưởng mới – nhóm của Baker có thể sử dụng phần mềm theo hướng ngược lại, tức là thay vì nhập chuỗi axit amin vào Rosetta để tạo ra cấu trúc protein, giờ sẽ nhập một cấu trúc protein mong muốn và nhận được các gợi ý về chuỗi axit amin của nó, từ đó cho phép tạo ra các protein hoàn toàn mới.

Baker – Người kiến tạo protein

Lĩnh vực thiết kế cấu trúc protein – nơi các nhà nghiên cứu tạo ra các phân tử mong muốn với các chức năng mới – bắt đầu phát triển mạnh vào cuối những năm 1990. Trong nhiều trường hợp, các nhà nghiên cứu tinh chỉnh các protein sẵn có để tạo ra chất mới phục vụ những ứng dụng như phân hủy các chất độc hoặc là các công cụ trong ngành sản xuất hóa chất.

Tuy vậy, dải protein tự nhiên bị giới hạn. Để tăng khả năng tạo ra protein mới với các chức năng hoàn toàn mới, nhóm nghiên cứu của Baker kiến tạo chúng từ đầu. Như Baker từng nói: “Nếu bạn muốn chế tạo máy bay, đừng bắt đầu bằng cách sửa đổi một con chim; thay vào đó, bạn cần hiểu các nguyên tắc cơ bản của khí động học và chế tạo máy bay từ đó.”

Ngày một protein độc nhất ra đời

Lĩnh vực mà các protein hoàn toàn mới được tạo ra gọi là thiết kế de novo (nghĩa Latin: từ đầu; từ mới). Nhóm nghiên cứu đã phác thảo một protein có cấu trúc hoàn toàn mới và sau đó dùng Rosetta để tính toán loại chuỗi axit amin nào có thể tạo ra protein mong muốn. Để làm điều này, Rosetta đã tìm kiếm trong cơ sở dữ liệu của tất cả các cấu trúc protein đã biết và tìm các đoạn mạch ngắn của protein có điểm tương đồng với cấu trúc muốn đạt. Sử dụng kiến thức cơ bản về bối cảnh năng lượng (energy landscape) của protein, Rosetta tối ưu hóa các đoạn mạch và đề xuất một chuỗi axit amin tương ứng.

Để kiểm tra kết quả hoạt động của phần mềm, nhóm của Baker đã đưa gene mã hóa chuỗi axit amin đề xuất vào vi khuẩn để chúng sản xuất ra protein mong muốn. Sau đó, họ xác định cấu trúc protein bằng phương pháp tinh thể học tia X. Kết quả cho thấy Rosetta thực sự có thể tạo ra protein. Protein mà nhóm phát triển, Top7, có cấu trúc gần như chính xác với thiết kế ban đầu.

Những sáng tạo ấn tượng từ phòng thí nghiệm của Baker

Top7 là một cú sốc đối với các nhà nghiên cứu đang làm công việc thiết kế protein. Trước đó, những người tạo ra protein de novo chỉ có thể bắt chước các cấu trúc đã có sẵn. Cấu trúc độc nhất của Top7 không tồn tại trong tự nhiên. Thêm vào đó, với 93 axit amin, protein này lớn hơn bất cứ thứ gì đã được tạo ra trước đó bằng thiết kế de novo.

***Hình 3. Top7*** *– protein đầu tiên tạo ra hoàn toàn khác biệt với tất cả protein trước nó*

Baker công bố phát hiện của mình vào năm 2003, đánh dấu viên gạch đầu tiên trong một quá trình phát triển phi thường. Một số protein ấn tượng được tạo ra từ phòng thí nghiệm của Baker có thể được thấy trong Hình 4. Ông cũng công khai mã nguồn của Rosetta, cho phép cộng đồng nghiên cứu toàn cầu tiếp tục phát triển phần mềm này và tìm ra những ứng dụng mới.

***Hình 4. Một số protein phát triển sử dụng Rosetta do Baker phát triển***

Giờ đây, đã đến lúc kết thúc câu chuyện về Giải Nobel Hóa học 2024. Vậy tiếp theo sẽ là gì?

Công việc tiêu tốn nhiều năm giờ chỉ còn vài phút

Khi Demis Hassabis và John Jumper xác nhận rằng AlphaFold2 thực sự hiệu quả, họ đã tính toán cấu trúc của tất cả các protein trong cơ thể người. Sau đó, họ dự đoán cấu trúc của gần như tất cả 200 triệu protein mà các nhà nghiên cứu đã phát hiện khi lập bản đồ sinh vật trên Trái Đất.

Google DeepMind cũng đã công khai mã nguồn của AlphaFold2 và bất kỳ ai cũng có thể truy cập. Mô hình AI này đã trở thành một mỏ vàng cho các nhà nghiên cứu. Tính đến tháng 10 năm 2024, AlphaFold2 đã được sử dụng bởi hơn hai triệu người từ 190 quốc gia. Trước đây, để xác định cấu trúc của một protein có thể phải mất nhiều năm, thậm chí là không thể. Giờ đây, việc này chỉ mất vài phút. Mô hình AI là không hoàn hảo, nhưng nó có thể ước tính độ chính xác của cấu trúc mà nó dự đoán, giúp các nhà nghiên cứu biết được mức độ tin cậy của dự đoán. Hình 5 minh họa một số ví dụ về cách AlphaFold2 hỗ trợ các nhà nghiên cứu.

***Hình 5. Một số cấu trúc protein được xác định sử dụng AlphaFold2***

Sau cuộc thi CASP 2020, khi David Baker nhận ra tiềm năng của các mô hình AI dựa trên công nghệ transformer, ông đã bổ sung một mô hình như vậy vào Rosetta, điều này đã giúp thúc đẩy thiết kế de novo. Trong những năm gần đây, những sáng tạo khó tin về protein đã thực sự được tạo ra từ phòng thí nghiệm của Baker (Hình 4).

Phát triển chóng mặt để phục vụ lợi ích nhân loại

Sự linh hoạt đáng kinh ngạc của các protein trong vai trò những công cụ hóa học của sự sống, được phản ánh đầy đủ trong sự đa dạng và phong phú của sự sống mà ta đang thấy. Việc ta hiện có thể hình dung cấu trúc của những cỗ máy phân tử nhỏ bé này một cách dễ dàng thật đáng ngạc nhiên; điều này cho phép ta hiểu rõ hơn về cách thức hoạt động của sự sống, bao gồm lý do tại sao một số bệnh phát triển, cơ chế kháng kháng sinh, hoặc vì sao một số vi sinh vật có thể phân hủy nhựa, v.v.

Khả năng tạo ra các protein được chức năng hóa với các đặc tính mới cũng rất đáng nể. Hệ quả này có thể rất hữu ích trong việc phát triển các vật liệu nano mới, dược phẩm hướng đích, phát triển nhanh vaccine, cảm biến tối giản và công nghiệp hóa học xanh.

Biên dịch: Quỹ đổi mới sáng tạo Vingroup (VinIF).

Nguồn: https://www.nobelprize.org/uploads/2024/10/popular-chemistryprize2024-3.pdf

TIN LIÊN QUAN

BÀI MỚI NHẤT

BÀI ĐỌC NHIỀU

Nghiên cứu

Sản phẩm

Blog

Tin tức

Vingroup Big Data Institute

Đăng ký để nhận email