Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

반복 서열을 포함하는 섬유단백질의 생물정보학적 서열 분석

Title
반복 서열을 포함하는 섬유단백질의 생물정보학적 서열 분석
Authors
정두엽
Date Issued
2019
Publisher
포항공과대학교
Abstract
단백질, 즉 유전 정보로부터 번역된 생체고분자는 생명체 내에서 수송, 신호전달, 운동, 효소, 그리고 저장 등 다양한 기능을 수행하고 있다. 강건한 구조를 구축하는 것 또한 단백질의 중요한 역할이며, 섬유단백질은 막대 또는 선 모양과 유사한 필라멘트 또는 신장된 구조를 형성하여 이 기능을 맡고 있다. 콜라겐, 엘라스틴, 케라틴, 액틴, 그리고 튜뷸린은 인체 내에 존재하는 잘 알려진 섬유단백질의 예이다. 곤충에서 발견되는 실크와 레질린 또한 이 카테고리에 포함된다. 약물 전달 수송체와 조직공학용 지지체로의 섬유단백질은 그것의 유전공학적 생산과 함께 결부하여 높은 잠재력의 생체재료를 개발하는 데 응용되고 있다. 섬유단백질에 대한 연구들은 지금까지 그것을 함유하는 생물종, 생체 내에서의 조성과 위치한 장소, 생산, 저장, 분비, 그리고 자가조립 과정에 집중되어 왔다. 인간 내에 존재하는 섬유단백질들의 유전자 변이에 의해 야기되는 많은 질병들 또한 중요한 연구 대상이다. 분자생물학의 발전 덕분에 섬유단백질들의 분자구조가 특성화되고 있다. 그들의 특이한 2차구조들이 섬유의 우수한 기계적 물성의 주요한 원인이라는 것이 밝혀졌으며, 이러한 2차구조들은 주로 불균형한 아미노산 조성의 직렬반복으로 구성된 단백질 서열로부터 기인한다. 직렬반복 서열에서는 특정한 길이의 대표적인 모티프 단위가 여러번 반복해서 나타나며, 이것이 주어진 핵산 또는 단백질 서열의 상당한 범위를 차지하고 있다. 직렬반복 단백질은 진화의 과정에서 주요한 역할을 수행했던 것으로 여겨진다. L-폴리류신과 같은 단일 아미노산들로 이루어진 고분자들과 친수성, 소수성 아미노산들이 반복되는 형태로 구성된 고분자들은 생명체의 기원에 필수적인 분자들이었다는 가설이 제기되었다. 거대 핵산 서열의 직렬 복제에 이은 불균형 교차와 유전자 전환에 의한 협조진화는 새로운 단백질 또는 그것의 그룹을 탄생시킬 수도 있다. 유전자 내부 복제 또한 기능적 도메인들의 축적을 통해 향상된 기능의 직렬반복 단백질을 만들 수 있다. 이러한 직렬반복 서열의 역사적 중요성을 반영이라도 하듯, 자연에는 다양한 기능을 갖는 많은 종류의 직렬반복 단백질들이 존재한다. 이러한 범용성을 파악하여 생체재료 공학자들은 직렬반복 단백질들을 지능형 지지체, 하이드로젤, 또는 생광물 복합소재 개발 등을 위한 유용한 대상으로 삼고 있으며, 생의학 연구자들은 백신 개발에도 응용하고 있다. 이러한 응용을 촉진하기 위해, 화학 합성 또는 생합성에 의한 직렬반복 단백질들의 대량 생산이 시도되고 있다. 특별히 이러한 노력들은 실크, 콜라겐, 그리고 엘라스틴과 같은 섬유단백질들의 반복서열에 더 많이 행해지고 있는데, 이는 자연 원천으로부터 직접 대량 추출을 하는 것에 어려움이 있기 때문이다. 이러한 중요성과 넓은 응용 분야에도 불구하고, 직렬반복 단백질들의 서열 정보를 컴퓨터를 이용해 분석하고, 효율적으로 분류하고, 검색하고, 저장하는 방법들은 현재 제한적이다. 거대한 염기서열 정보가 핵산 시퀀싱 기술이 발전함에 따라 축적되고 있음에도 불구하고, 그 곳에서 가치있는 서열들을 평주(評註, annotate)하기 위한 계산적 접근은 충분하지 못하다. 특별히 직렬반복 서열들의 경우, 수많은 정보들이 잘못 평주되어 있거나, '가설의', '이름 없는', 또는 '알려지지 않은' 상태로 기술되어 미국 국립생물공학 정보센터와 같은 공용 데이터베이스에 보고되어 있는 실정이다. 선행 연구에서는 이렇게 숨겨진 서열들의 상황을 "단백질 서열 우주의 암흑 물질"이라고 칭하기도 하였다. 현재 복수 서열 정렬 도구들은 반복 서열을 갖지 않는 구상단백질들의 분석에 적합하게 설계되어있다. 게다가 생물정보학적 도구들은 직렬반복 서열의 검색과 클러스터링에 적합하게 기여하지 못하고 있다. 섬유단백질 또한 직렬반복 서열을 포함하기 때문에, 그것의 적절한 계산적 접근 또한 현재 불충분한 상황이다. 예를 들어 가장 유명한 서열 검색 도구인 BLAST는 실크나 콜라겐 모티프 서열을 입력했을 때 의미있는 결과를 출력하지 못하는데, 그 이유는 정렬 알고리즘이 짧은 입력 서열을 자동적으로 필터링해버리고 많은 글리신과 알라닌 아미노산을 핵산의 구아니딘과 아데노신 염기로 취급해버리기 때문이다. 섬유단백질의 직렬반복 서열들이 구조와 기계적 물성과 밀접하게 연관되어 있기 때문에, 컴퓨터를 이용한 새로운 방법들이 원천 섬유단백질의 분석, 탐색 및 응용을 위해 고안되어야만 한다. 그러므로 본 학위 논문에서는 반복서열을 포함하는 섬유단백질의 서열분석을 위한 새로운 계산 플랫폼을 개발하였다. 먼저 직렬반복 서열의 정의, 역할과 응용, 다양한 종류의 섬유단백질들, 그리고 기존의 생물정보학적 방법들과 그들의 한계점들에 대한 문헌 조사 결과를 조직화했다. 연구에 대한 본격적인 설명은 직렬반복을 포함하는 거미 실크단백질 서열들의 생물정보학적 분석으로부터 시작된다. 총 10개 거미종으로부터 유래된 33개의 실크단백질을 조직적으로 비교하기 위해 반복서열들을 아미노산 삼량체(三量體, trimer) 모티프 단위로 나누고, 그들의 조성과 위치한 순서가 계산되었다. 이 연구를 통해 새롭게 진화한 거미 그룹이 출현할 때마다 그 서열이 새로운 종류의 삼량체 모티프를 함유하고 있음을 확인했으며, 또한 수집한 삼량체 모티프들을 활용해 실크 서열이 새로운 거주 환경에 적응하기 위해 거미종 자체, 거미줄의 기계적 물성과 함께 공진화(共進化, coevolution)했다는 결정적 증거를 최초로 제시하였다. 이어서 거미 실크단백질 서열 분석에서 사용한 삼량체 모티프와 그들간의 상호작용에서 얻은 영감을 바탕으로, 다른 종류의 거미 실크, 콜라겐, 엘라스틴 등 다양한 종류의 섬유단백질들을 비슷하게 분석하여 그 결과로 데이터베이스를 구축하는 후속 연구가 수행되었다. 데이터베이스의 이름은 (FiPr)2로 명명하였으며, 총 971개 생물종에서 유래된 46018개 단백질 서열 정보를 포함하게 했다. 또한 데이터베이스 구축 과정을 자동화하기 위해 “분할”, “모티프”, “상호작용”이라는 3가지 프로그램을 제작하였다. 따라서 기초 서열정보만 가지고 있으면 누구나 몇 번의 클릭만으로 프로그램을 실행하여 동일한 양식으로 데이터베이스를 쉽게 제작할 수 있게 구축하였고, 이러한 편의성은 추후 내용의 업데이트에도 유용할 것이다. 섬유단백질의 경우, 기존의 데이터베이스들은 한정된 단백질 정보만 갖고 있거나, 인간 유전자 변이 정보를 정리한 질병 관련 데이터베이스여서 서열과 구조, 기능 정보를 포함하고 있는 실용적인 저장소가 현재 전무한 실정이다. 따라서 구축된 데이터베이스는 섬유단백질의 조직화된 정보를 탐색하려는 많은 연구자들에게 큰 도움을 줄 것이라 기대된다. 마지막으로, 구축된 (FiPr)2 데이터베이스의 응용을 위해 전체 유전자 서열이 밝혀져있는 두 생물종인 황금원형거미와 스타렛말미잘의 단백질 정보 빅데이터 분석을 모델 연구로 제시하였다. 각 단백질 정보가 함유하고 있는 서열들의 상호작용 빈도를 구해 이미 계산 및 데이터베이스 내부에 저장되어있는 섬유단백질들의 상호작용 빈도와 비슷한 것이 있는지를 탐색하는 계산을 수행하였다. 결과적으로 두 정보 모두에서 잠재적인 섬유단백질 후보군들을 추출할 수 있었으며, 그 내부엔 이미 실크유사 단백질로 재조합 생산과 응용연구가 수행된 아네로인 단백질 서열이 포함되어있어 앞으로 해양메타게놈과 같은 새롭게 보고된 유전정보에서 섬유단백질로 응용 가능한 서열들을 선정하는데에도 사용할 수 있을 것이라 사료된다. 정리하자면, 본 학위 논문에서는 섬유단백질의 반복서열을 효율적으로 분석, 탐색, 저장할 수 있는 생물정보학 도구를 개발하여 그 성능을 확인하고 응용 방안을 제시하였다. 앞으로 구축된 데이터베이스를 웹 기반의 그래픽 사용자 인터페이스로 개량하여 추후 공개할 계획이며, 그 내부에서는 데이터베이스 구축과 서열 탐색에 사용된 계산 알고리즘을 시간과 공간 복잡도 감소를 목표로 하여 개선할 수 있을 것이다. 또한 섬유다발의 굵기, 서열 전체 길이, 후처리 과정 등 섬유단백질의 물성에 관련된 다양한 매개변수들이 더 많이 수집된다면 머신러닝이나 딥러닝을 이용해서도 기계적 물성을 예측해볼 수 있으리라 기대된다.
Fibrous proteins, the members of which are silks, collagen, elastin, resilin, keratin, and so on, construct robust structures in vivo and ex vivo by building filamentous or elongated rod or line shape. With the aid of molecular biological techniques, the structures of fibrous proteins have started to be characterized. Their peculiar secondary structures are the major reasons of excellent mechanical properties of fibers, and these structures are induced by protein sequences including tandem repeats of imbalanced amino acid compositions. In tandem repeat sequences, a representative motif unit of specific length consecutively appears and this repetition covers the remarkable portion of DNA or protein sequences. Tandem repeat proteins have been played important roles for the origin of life and steps of evolution. Reflecting this historical significance, there are numerous kinds of tandem repeat proteins with various functions in nature, such as structural roles, adhesion, and ice crystallization. Thanks to these functions, tandem repeat proteins are engineered and applied to fabricate smart hydrogels, biomineral composites, or vaccines. Especially, fibrous proteins with tandem repeats are getting much more attentions from biomaterial researchers to formulate drug delivery carriers and tissue scaffolds. Although tandem repeat proteins have such an importance and broad application fields, computational methods to analyze, categorize, retrieve, and store their sequence information currently have many shortcomings. Pre-established multiple sequence alignment tools were optimized to align globular proteins without repetitive sequences. Besides, other bioinformatical tools do not suitably contribute to search and cluster repetitive sequences. Because fibrous proteins contain repetitive sequences, in silico approaches towards them are also limited. For instance, the most famous sequence alignment tool BLAST cannot print meaningful results after inputting silk or collagen motif sequences. Due to the close relationship among repetitive sequences, molecular structures, and mechanical properties, appropriate computational methods should be developed to efficiently analyze, find, and utilize source fibrous protein sequences. Therefore, in this dissertation, novel bioinformatical platform for fibrous proteins harboring repetitive sequences was developed. First, the definition, roles, and applications of tandem repeats, various types of fibrous proteins, and pre-established computational methods and their drawbacks were mentioned in the part of literature survey. Full-scale explanation about the research was started from the novel in silico analyses of repetitive spider silk sequences. The mechanical properties of spider silks have diverged as spiders have diversely speciated. Because the main components of silks are proteins, it is valuable to investigate their sequences. However, silk sequences have been regarded as difficult information to analyze due to their imbalance and imperfect tandem repeats (ITR). Here, we applied a bioinformatical approach to systemically analyze a group of silk sequences. We found that every time new spider groups emerged, unique trimer motifs appeared. These trimer motifs were used to find additional clues of evolution and to determine relationships with mechanical properties. For the first time, the crucial evidence was provided that silk sequences are coevolved with spider species and the mechanical properties of their fibers to adapt to new living environments. This novel approach can be used as a platform for analyzing other groups of ITR-harboring proteins and to give information for the design of tailor-made fibrous protein materials. Next, with the idea of trimer motifs and their interactions inspired from the spider silk sequence analyses, a novel protein sequence database was constructed by collecting similar analyses results of additional fibrous proteins including other types of spider silk proteins, elastins, and collagens. The database was named as (FiPr)2 (Fibrous Protein FingerPrint) and includes abundant sequence-derived parameters. To automatize steps of database construction, new programs were implemented so anyone can easily construct the database with uniform format by several mouse clicks after inputting basic sequence information. This convenience will be helpful for the update of database in the future. Previously, the known databases of fibrous proteins only had limited amount of protein information or disease-related information caused by human genetic disorders. Therefore, this newly constructed (FiPr)2 database will be useful for researchers in the field of biotechnology to find well-organized sequence information of fibrous proteins. Finally, for the application of (FiPr)2 database, the gigantic sequence information from two species was retrieved to find potential fibrous protein materials as a model study. A spider (Nephila clavipes) and a sea anemone (Nematostella vectensis) were chosen as target organisms because their whole genomes had been already sequenced, so their sequence information is abundant enough to be retrieved. Interaction frequencies between trimer motifs of each sequence item were calculated and compared with pre-calculated and stored interaction frequencies in the database to find similar sequences. In results, potential fibrous protein candidates were successfully extracted, and among them, there was a sequence called “aneroin” which was already reported as marine-originated silk-like protein with its genetical production and various formulations. Thus, the (FiPr)2 database and search method can be used to select applicable fibrous protein candidates from newly reported sequence information like marine metagenomes. Collectively, in this dissertation, bioinformatical approaches which can efficiently analyze, search, and reposit repetitive sequences of fibrous proteins were devised. Performances of new methods were tested and the direction of application was suggested. The (FiPr)2 database will be improved as a web-based format with graphic user interface and opened to the public. The inner algorithms which were designed to construct database and search new potential material candidates will also be enhanced to minimize time and space complexities. Moreover, if various parameters related to the mechanical properties of protein fibers such as the dimension of fibers, sequence lengths of fibrous proteins, and physical and chemical conditions during post-spinning processes are collected, machine learning or deep learning algorithm will be employed to predict mechanical properties in the future.
URI
http://postech.dcollection.net/common/orgView/200000216476
https://oasis.postech.ac.kr/handle/2014.oak/111857
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse