専門コア情報処理演習
バイオインフォマティクス(超)入門

(藤原担当分)
課題 II: DNA の配列解析
  (1) BLAST によるホモロジー検索
  (2) アミノ酸配列のアラインメント,系統樹の作成
  (3) cDNA とゲノム情報の利用
以前のレポートを参考にする (2004 年度・川村さん作)
情報処理演習 (藤原担当分)の目次のページに戻る



参考書:
『できるバイオインフォマティクス』 (広川貴次・美宅成樹 著、中山書店)
『分子遺伝学』 (T. A. Brown 著・西郷薫訳、東京化学同人)

注意事項:
英和辞典必携です。ないと困ると思います。




さて,

あなたは,ある動物の体からある遺伝子の cDNA 断片を取り出す(“単離する”という)ことに成功
しました。この遺伝子は,その動物の細胞にある薬剤処理を施すことによって働く(転写される)
ことを指標にして単離したものなので,どのようなタンパク質の設計図であるのかについては
わかりません。そこで,この遺伝子がコードする可能性のあるタンパク質が,これまでに知られて
いるタンパク質のどれかと似ているかどうか,データベースで検索してみることにしました。データ
ベースはインターネット上で使うことができます。あなたが単離した(ことにする) cDNA の配列
(塩基配列)は こちら に用意してあります。

まず,その配列をコピー&ペーストで自分のワープロソフトに保存してください。
その際,配列中に改行マークがありますが,消しても消さなくても OK です。

作業をする前に,いくつかの予備知識が必要です。情報処理演習は専門の講義ではないので,
ここでは「ゲームのルール」という程度に考えて結構です。

ゲームのルールは こちら を参照のこと。これもコピー&ペーストでワープソフトか何かに
保存しておくと便利です。

さて,皆さんがゲットした DNA の配列は,タンパク質をコードする部分かも知れないし,そうでないかも
知れません。また前者であったとしても暗号表が適用されるのがこちら側の鎖かも知れないし,
対をなす側の鎖であるかも知れません。これら全ての可能性を考慮した上で,この DNA がコードする
可能性のあるアミノ酸配列が,既知のどれかのタンパク質の配列に似ているかどうかを検索する
ソフトが BLASTX です。



(1)  BLAST によるホモロジー検索

さて,いよいよ検索です。 検索するためには,自分の配列を BLAST による検索の画面に入力しな
ければなりません。 京大・化研の GenomeNet からリンクしている BLAST のページ( こちら )へ
移動してください。

課題の DNA の塩基配列を Sequence data と書いた箱(空欄)の中に貼り付けてください。

BLASTN,BLASTPBLASTX
などの選択があります。N は自分の持っている DNA の塩基配列と
データベース中の DNA の塩基配列を比較するための,P は自分の持っているタンパク質のアミノ酸
配列とデータベース中のアミノ酸配列を比較するための,そして X は自分の持っている DNA の塩基
配列(がコードし得るアミノ酸配列)とデータベース中のアミノ酸配列を比較するためのプログラムです。

BLASTX
を選択してください。

次はどのデータベースを選択するかです。

BLASTP または BLASTX を選ぶと,右側に 2 つある箱のうちの上の箱の中のラジオボタン
が選択可能になります。この演習では Swissprot を使いましょう。
今回の課題では nr-aa は使わないでください。

Set the maximum number of database sequences to be reported: は,似ているもの
の中から上位いくつまでのランキングを画面に表示するかを決めます。
また,alignment というのは自分の配列とデータベースから出てきた配列を並べることです。
Set the maximum number of alignments to be displayed: は,上位いくつまでの配列を
自分の配列と並べてくれるかを決めます。

maximum number of database sequences to be reported100 に,
maximum number of alignments to be displayed100 に,それぞれ設定しましょう。

最後に Compute と書いたボタンをクリックすれば検索の結果が出ます。

検索結果をコピーしてワープロソフトにペーストし,名前を付けて保存してください。

検索結果の見方は演習のときに実際の結果を見ながら解説します。特に,”フレーム”に注意しま
しょう。予備知識のところで解説した 6 つの読み枠の可能性のうちのどれと似ているのかを示す
情報です。検索結果の画面の中で文字の色の違う部分は,他のページへのリンクです。検索の
結果リストアップされた遺伝子に関する情報,文献などを見ることができます。いろいろ見て
みましょう。

上記の BLAST のページがうまく動かないときは NCBINational Center for Biotechnology
Information)のページに行きましょう( こちら )。NCBI のページの使い方は こちら にあります。

注意:

検索結果の評価には数字のみではない経験が必要です。スコアや確率のみをもとにしその遺伝子
がランキング上位に来たタンパク質と同じような機能を持ったタンパク質を
コードしているかどうかは
断定できません。この演習では,評価に関するところは完全
に省略します。



(2) アミノ酸配列のアラインメントの作成

次は,自分の DNA がコードすると予想されるタンパク質のアミノ酸配列と,検索でヒットしたいくつか
の配列を全部一度に並べて比較しましょう。

自分の DNA をどのフレーム(コドンの読み枠)で翻訳したらいいかは,BLAST の検索結果を
見るとわかるはず。翻訳の作業も,インターネット上でできます。 このページ に行って,自分の
DNA の配列を入力し,フレームを決めて翻訳してみましょう。このページは European
Bioinformatics
InstituteEBI) のホームページ( こちら )中にあるツールです。

(注) 上のサイトが使えないときは NCBIOpen Reading Frame Finder のページを使ってみま
  しょう。ページを開いて一番大きな枠内に塩基配列を入力し, [OrfFind] と書いたボタンを押す
  だけです。

BLAST での検索結果の上位にランキングされたタンパク質の全配列をワープロソフトに保存
しましょう。このとき,いろいろな生物のいろいろなタンパク質の配列の中からどれを選ぶか
よく考えてください。 5 個から 10 個程度用意してくれたらいいですが,できるだけ幅広くいろいろ
な種類の動物から選んでみてください。

今度は BLAST と違う原理でアラインメントを作ります。この作業は Clustal Wのページ で行います。
Clustal W の原理についても参考書を読んでください。ここで使うのは 京大・化研GenomeNet
からリンクしている Clustal W のページです。

自分の配列と比較したい配列をまとめて入力します。このとき,各配列の前には > 記号に
続けてスペースを入れずに遺伝子名(タンパク質名)を入力してください。そして,改行して
からアミノ酸配列を入力,また改行して > と遺伝子名を入力,再び改行してアミノ酸配列を
入力・・・という順序で書き込みます。次に,PROTEINDNA の選択(今回の演習ではもちろん
PROTEIN で)を行い,あとは Execute Multiple Alignment のボタンをクリックするだけです。
 
Clustal W によるアラインメントができたらそのページの下の方を見ましょう。系統樹作成プログラム
へのリンクがあります(N-J TreeDendrogram など)。試してみましょう。

入力の仕方,結果の解釈の仕方についてはややこしいので,演習のときに説明します。



(3)こちらのページ へ進んでください。



さて,課題 (1)〜(3) のデータが出たらレポートを作りましょう。


以下の点に注意して結果をまとめてください。

・ あなたの遺伝子はどんなタンパク質をコードする遺伝子だと思われますか?
・ そのタンパク質では,構造上・機能上どのようなアミノ酸がどの位置にある
  ことが重要なのでしょうか?これまでに出てきたページの情報をフルに活用
  してください。
・ その大事なアミノ酸は,あなたの配列中でも保存されていますか?
・ 以上の結果を視覚的にはっきりと示すことのできる図を作ってみましょう。
・ BLAST の結果リストアップされたタンパク質の中には,似ているけれども
  ちょっとずつ違う何種類かのタンパク質があったようです。あなたの cDNA
  がコードするタンパク質は,それらのうちのどれに相同だと思われますか?
  このときには系統樹を参考にしましょう。
・ この遺伝子のエクソン/イントロン構造を模式図にしてください。

(発展問題)

・ 遺伝子の進化の道筋を推論してください。
  (詳しいことは 3 回生の『進化生物工学』で勉強してください。)
・ 相同と思われる他の生物の遺伝子については、エクソン/イントロンの位置
  などは保存されているでしょうか?それらを調べようと思ったらどうしますか?

ちょっと難しい?
 

   ・ 遺伝子やタンパク質に関する知識がないと難しいだろうと思います。
     アドバイスをしますので質問をしてください。
   ・ レポートはできれば HTML 形式で作成し,自分のホームページにリンク
     させてください。

課題は以上です。お疲れさまでした。



ふじわらの、授業関係の目次に戻る
ふじわらのページ(表紙)に戻る

2004 年度の川村あいさんのレポートを公開しています。どんな風にレポートを作ればいいのか
参考にしてください。ただし,今年度は課題が違うのでコピー&ペーストは不可です。
  こちら→ レポートの見本を見る