Các nhà nghiên cứu theo dõi nguồn gốc của mã di truyền đến cấu trúc protein sơ khởi

Ngày cập nhật: 24 tháng 9 2025

Chia sẻ

Gen là nền tảng của sự sống và mã di truyền cung cấp hướng dẫn cho các quá trình phức tạp giúp sinh vật hoạt động. Nhưng làm thế nào và tại sao nó lại trở thành như vậy? Một nghiên cứu gần đây của Đại học Illinois Urbana-Champaign đã làm sáng tỏ nguồn gốc và sự tiến hóa của mã di truyền, cung cấp những hiểu biết quý giá cho kỹ thuật di truyền và tin sinh học.

“Chúng tôi phát hiện ra nguồn gốc của mã di truyền có liên hệ bí ẩn với thành phần dipeptide của một proteome, tập hợp các protein trong một sinh vật”, tác giả liên hệ Gustavo Caetano-Anollés (PFS), giáo sư tại Khoa Khoa học cây trồng và Khoa học y sinh và dịch thuật của Trường Y khoa Carle Illinois tại U. of I, cho biết.

Nghiên cứu của Caetano-Anollés tập trung vào phát sinh chủng loại học, nghiên cứu mối quan hệ tiến hóa giữa các bộ gen của sinh vật. Nhóm nghiên cứu của ông trước đây đã xây dựng cây phát sinh chủng loại, lập bản đồ theo thời gian tiến hóa của các miền protein (đơn vị cấu trúc trong protein) và RNA vận chuyển (tRNA), một phân tử RNA vận chuyển axit amin đến ribosome trong quá trình tổng hợp protein. Trong nghiên cứu này, họ đã khám phá sự tiến hóa của các chuỗi dipeptide (các mô-đun cơ bản của hai axit amin được liên kết bằng liên kết peptide), tìm thấy sự trùng khớp về lịch sử của các miền, tRNA và dipeptide.

Sự sống trên Trái Đất bắt đầu cách đây 3,8 tỷ năm, nhưng gen và mã di truyền phải mất 800.000 triệu năm sau mới xuất hiện và có nhiều giả thuyết khác nhau về cách thức sự sống này diễn ra.

Một số nhà khoa học tin rằng hoạt động enzyme dựa trên RNA xuất hiện trước, trong khi những người khác lại cho rằng protein bắt đầu hoạt động cùng nhau trước. Nghiên cứu của Caetano-Anollés và các đồng nghiệp trong những thập kỷ qua ủng hộ quan điểm thứ hai, cho thấy các tương tác giữa protein ribosome và tRNA xuất hiện muộn hơn trong dòng thời gian tiến hóa.

Gustavo Caetano-Anollés, giáo sư Khoa Khoa học Cây trồng/L. Brian Stauffer.

Sự sống vận hành dựa trên hai bộ mã hoạt động song song, Caetano-Anollés giải thích. Mã di truyền lưu trữ các chỉ dẫn trong axit nucleic (DNA và RNA), trong khi mã protein chỉ dẫn enzyme và các phân tử khác cách duy trì sự sống và hoạt động của tế bào. Cầu nối giữa hai bộ mã này là ribosome, nhà máy protein của tế bào, nơi lắp ráp các axit amin được vận chuyển bởi các phân tử tRNA thành protein. Các enzyme nạp axit amin vào tRNA được gọi là aminoacyl tRNA synthetase. Các enzyme synthetase này đóng vai trò như những người bảo vệ mã di truyền, giám sát mọi hoạt động bình thường của tế bào.

“Tại sao sự sống lại dựa trên hai ngôn ngữ – một cho gen và một cho protein?” Caetano-Anollés đặt câu hỏi. “Chúng ta vẫn chưa biết tại sao hệ thống kép này tồn tại hoặc điều gì thúc đẩy mối liên hệ giữa hai hệ thống. Các yếu tố thúc đẩy không thể nằm ở RNA, vốn có chức năng khá vụng về. Ngược lại, protein là chuyên gia trong việc vận hành bộ máy phân tử tinh vi của tế bào”.

Proteome dường như phù hợp hơn để lưu giữ lịch sử ban đầu của mã di truyền, với các dipeptide đóng vai trò đặc biệt quan trọng như các mô-đun cấu trúc ban đầu của protein. Có 400 tổ hợp dipeptide có thể có với số lượng khác nhau tùy theo từng sinh vật.

Nhóm nghiên cứu đã phân tích một tập dữ liệu gồm 4,3 tỷ trình tự dipeptide trên 1.561 proteome đại diện cho các sinh vật từ ba siêu giới: Archaea, Bacteria và Eukarya. Họ đã sử dụng thông tin này để xây dựng một cây phát sinh loài và niên đại tiến hóa của dipeptide. Họ cũng lập bản đồ các dipeptide này thành một cây các miền cấu trúc protein để xem liệu có xuất hiện các mô hình tương tự hay không.

Trong các nghiên cứu trước đây, các nhà nghiên cứu đã xây dựng một phả hệ của tRNA, giúp cung cấp một dòng thời gian về sự xâm nhập của các axit amin vào mã di truyền, phân loại các axit amin thành ba nhóm dựa trên thời điểm chúng xuất hiện. Nhóm lâu đời nhất là Nhóm 1, bao gồm tyrosine, serine và leucine, và Nhóm 2, với 8 axit amin bổ sung. Hai nhóm này có liên quan đến nguồn gốc của quá trình chỉnh sửa trong các enzyme synthetase, giúp sửa chữa việc tải axit amin không chính xác, và một mã hoạt động sớm, thiết lập các quy tắc đầu tiên về tính đặc hiệu, đảm bảo mỗi codon tương ứng với một axit amin duy nhất. Nhóm 3 bao gồm các axit amin xuất hiện sau và được liên kết với các chức năng phái sinh liên quan đến mã di truyền chuẩn.

Nhóm nghiên cứu đã chứng minh được sự đồng tiến hóa của synthetase và tRNA liên quan đến sự xuất hiện của axit amin. Giờ đây, họ có thể thêm dipeptit vào phân tích.

“Chúng tôi nhận thấy kết quả phù hợp”, Caetano-Anollés giải thích. “Sự phù hợp là một khái niệm then chốt trong phân tích phát sinh loài. Nó có nghĩa là một tuyên bố về sự tiến hóa thu được từ một loại dữ liệu này sẽ được xác nhận bởi một loại dữ liệu khác. Trong trường hợp này, chúng tôi đã kiểm tra ba nguồn thông tin: Miền protein, tRNA và trình tự dipeptide. Cả ba đều cho thấy cùng một tiến trình của các axit amin được thêm vào mã di truyền theo một thứ tự cụ thể”.

Một phát hiện mới khác là tính lưỡng tính trong sự xuất hiện của các cặp dipeptide. Mỗi dipeptide kết hợp hai axit amin, ví dụ, alanine-leucine (AL), trong khi một dipeptide đối xứng, một anti-dipeptide, có sự kết hợp ngược lại của leucine-alanine (LA). Hai dipeptide trong một cặp bổ sung cho nhau; chúng có thể được coi là hình ảnh phản chiếu của nhau.

“Chúng tôi đã tìm thấy một điều đáng chú ý trên cây phát sinh loài”, Caetano-Anollés nói. “Hầu hết các cặp dipeptide và anti-dipeptide xuất hiện rất gần nhau trên dòng thời gian tiến hóa. Sự đồng bộ này là không lường trước được. Tính chất lưỡng tính này tiết lộ một điều gì đó cơ bản về mã di truyền với những hàm ý có khả năng biến đổi đối với sinh học. Nó cho thấy các dipeptide xuất hiện được mã hóa trong các mạch bổ sung của bộ gen axit nucleic, có khả năng là các tRNA tối giản tương tác với các enzyme synthetase nguyên thủy”.

Dipeptide không xuất hiện như những sự kết hợp tùy ý mà là những yếu tố cấu trúc quan trọng định hình quá trình gấp nếp và chức năng của protein. Nghiên cứu cho thấy dipeptide đại diện cho một mã protein nguyên thủy xuất hiện để đáp ứng các yêu cầu về cấu trúc của protein sơ khai, cùng với một mã vận hành dựa trên RNA sơ khai. Quá trình này được hình thành bởi sự đồng tiến hóa, chỉnh sửa phân tử, xúc tác và tính đặc hiệu, cuối cùng dẫn đến sự ra đời của các enzyme synthetase, những người bảo vệ mã di truyền hiện đại.

Việc khám phá nguồn gốc tiến hóa của mã di truyền giúp chúng ta hiểu sâu hơn về nguồn gốc sự sống và cung cấp thông tin cho các lĩnh vực hiện đại như kỹ thuật di truyền, sinh học tổng hợp và nghiên cứu y sinh.

Sinh học tổng hợp đang nhận ra giá trị của quan điểm tiến hóa. Nó củng cố kỹ thuật di truyền bằng cách để tự nhiên dẫn dắt quá trình thiết kế. Việc hiểu được tính cổ xưa của các thành phần và quy trình sinh học rất quan trọng vì nó làm nổi bật khả năng phục hồi và chống chịu thay đổi của chúng. Để thực hiện các sửa đổi có ý nghĩa, điều cần thiết là phải hiểu được những hạn chế và logic cơ bản của mã di truyền”, Caetano-Anollés cho biết.

Bài báo với nhan đề “Tracing the origin of the genetic code and thermostability to dipeptide sequences in proteomes”, được đăng trên tapk chí the Journal of Molecular Biology [10.1016/j.jmb.2025.169396]. Các tác giả bao gồm Minglei Wang, M. Fayez Aziz và Gustavo Caetano-Anollés.

Nguyễn Thị Quỳnh Thuận theo Đại học Illinois.

Số lần xem: 182