Galaxyの使い方

このページではGalaxyを用いた解析について解説、ご紹介をいたします。

目次
1. Galaxyを使ったNGSデータ解析:基本編
2. Galaxyを使ったNGSデータ解析:発展編
3. Galaxyを使ったNGSデータ解析:その他機能
4. よくある質問
5. 主な解析パイプライン一覧


1. Galaxyを使ったNGSデータ解析:基本編

このセクションではGalaxyを使ったNGSデータ解析の方法について、実習形式で解説いたします。

基本編ではGalaxyの概要について紹介した後、実際の解析ツールを使用しながら、Galaxyの操作方法や機能を解説します。

  • 画面の見方
  • ログイン方法
  • データをGalaxyにアップロードする
  • 解析ツールの利用:リードの前処理
  • (補足) データの削除
  • 解析ツールの利用:アセンブル
  • 解析ツールの利用:リードのマッピング
  • 解析ツールの利用:SSRの検出
  • (補足) ヒストリーを用いたデータ管理
  • 解析ツールの利用:RNA-seq
  • (補足) データのダウンロード


2. Galaxyを使ったNGSデータ解析:発展編

発展編ではWorkflow機能を用いた解析パイプラインなどについて解説します。

  • サイズの大きいデータをGalaxyにアップロードする
  • リファレンスへのマッピング
  • 多形抽出
  • SSR検出primer設計
  • Workflowを作る
  • NGS解析以外のツール

3. Galaxyを使ったNGSデータ解析:その他機能

ここでは解析結果の可視化やデータバックアップとジョブの監視などの機能について解説します。

  • 解析結果の可視化
  • ジョブの監視
  • データバックアップ

3-1. 可視化ツールについて

3-1-1. 可視化ツールご利用の案内

アカウントの登録をされた方を対象に、NGSデータ可視化のための2種類の環境を提供しております。
Galaxy/AAC上から簡単な操作で解析結果の可視化を行うことができます。
ゲノムブラウザはGalaxyと同様にパスワードにより保護されます。

JBrowse : http://jbrowse.org/

様々なファイル形式に対応したゲノムブラウザです。
マッピング結果、Variant情報などNGSデータの解析結果をブラウザ上で閲覧することができます。

*Galaxy/AACではFASTA, BAM, VCF, GFF3のファイル形式に対応しています。


TASUKE : http://tasuke.dna.affrc.go.jp/

TASUKEはリシーケンシングデータなど複数ゲノムを可視化するゲノムブラウザです。
100以上の大規模なデータにも対応しています。
Variant情報,Depth情報,アノテーションなどを高速に閲覧することができます。

*Galaxy/AACではBAM, VCF, GFF3などのファイル形式に対応しています。
*リファレンスゲノムとしてイネゲノム(IRGSP-1.0)とダイズゲノム(Wiliams82.a2.v1)のみを提供しております。
Os-Nipponbare-Reference-IRGSP-1.0: http://rapdb.dna.affrc.go.jp
Wiliams82 assembly version 2 annotation version 1: https://www.soybase.org/


3-1-2. 利用するには

までメールにて申請をお願いいたします。
その際、下記の必要事項の記入をお願いいたします。

[ユーザID] Galaxy/AACのユーザID
[利用したい環境] JBrowse or TASUKE
[使用するゲノムの種類]現在は、イネゲノム(irgsp-1.0)とダイズゲノム(Wiliams82.a2.v1)をご利用いただけます。
※1アカウントにつき1ゲノムのみ使用することができます。
[登録するデータの情報] (TASUKEを利用したい方のみ)登録用フォーマットをダウンロードし、登録するデータの情報を記入してください。ブラウザに登録されたデータが表示されます。表示例は公開版TASUKE(http://rice50.dna.affrc.go.jp)をご覧ください。
登録用フォーマットのダウンロードはこちら:csv download

申請後に登録方法と閲覧用のURLについてご連絡いたします。

3-1-3.利用方法

・3-1-3-1. JBrowse

利用申請が完了しますとGalaxy上からJBrowseのインストール作業(データの追加/削除)を行うことができます。
まずは閲覧用URLへのアクセスが可能かご確認ください。
データ追加/削除はツールパネルの"JBrowse_tools"内のツール群を使用します。

1. JBrowse List
このツールは現在JBrowseに登録されているReference配列名の一覧と閲覧用のURLを取得します。

2. JBrowse make Reference
リファレンス配列をJBrowseに登録します。

3. JBrowse add BAM
BAMファイルを新規トラックとして登録します。
アライメント情報を閲覧できます。

4. JBrowse add GFF
GFFファイルを新規トラックとして登録します。

5. JBrowse add VCF
VCFファイルを新規トラックとして登録します。

6. JBrowse generate index
アノテーション情報やIDで検索をするためのインデックスを生成します。

7. JBrowse delete Track
指定のトラックを削除します。

8. JBrowse delete Reference
登録されたリファレンス配列を削除します。


インストール作業が終了しましたら、閲覧用URLへアクセスして
データ追加/削除が行われているかご確認ください。

・3-1-1-2. TASUKE

利用申請が完了しますとGalaxy上からJBrowseのインストール作業(データの追加/削除)を行うことができます。
まずは閲覧用URLへのアクセスが可能かご確認ください。
データ追加/削除はツールパネルの"TASUKE_tools"内のツール群を使用します。

1. tasuke accession list
このツールはユーザーに割り当てられたIDを取得します。
ここから取得できるIDを対象にBAMやVCFファイルのアップロードを行うことができます。

2. tasuke bam upload
BAMファイルをTASUKEに反映させます。
アップロード先のIDとBAMファイルを指定して実行すると
指定したIDのRead depth情報をTASUKE上で閲覧できます。

3. tasuke bam delete
アップロードしたBAMファイルを削除します。
削除したいIDを指定することでTASUKE上からdepth情報が削除されます。

4. tasuke vcf upload
VCFファイルをTASUKEに反映させます。
アップロード先のIDとVCFファイルを指定して実行すると
指定したIDのvariant情報をTASUKE上で閲覧できます。

5. tasuke vcf delete
アップロードしたVCFファイルを削除します。
削除したいIDを指定することでTASUKE上からvariant情報が削除されます。


インストール作業が終了しましたら、閲覧用URLへアクセスして
データ追加/削除が行われているかご確認ください。


・3-2. ジョブ監視機能

ジョブの状態をGalaxy上から閲覧可能です。Toolsから「Job moitor」を選択すると実行中のジョブや過去のジョブについて状態を閲覧することができます。

また、日付による絞り込み検索が可能です。

monitoring



・3-3. バックアップ機能

すぐに使わないファイルなど、退避させておきたいファイルをヒストリーの外の領域にコピーすることが可能です。

コピーされたファイルはSFTPクライアント等で操作可能です。

backup



4. よくある質問

アカウント関連

・アカウント登録のメールが届かない
・パスワードを変更したい

ファイルのアップロード

・ファイルアップロードができない・終わらない
・大容量のファイルをアップロードしたい
・ファイルアップロード時にエラーになる

データとヒストリーの管理

ログインしたらヒストリーからデータが消えてしまった
ヒストリーやデータを削除したがディスク使用量が減らない

ツール関連

・ツールを実行したが、長い間終了しない
・ツールを実行したが、エラーになる
・ファイル形式は合っているのに、ツールがファイルを認識しない / ファイル形式が間違って認識されてしまう


その他

・"Server Error"と表示されてしまう

アカウント関連

・アカウント登録のメールが届かない

  通常3営業日以内にLogin IDとPasswordをお知らせいたします。メールが届かない場合は以下の2点をご確認ください。

  1. 登録メールの送信元affrc.go.jpがご使用になっているメールソフトでフィルタリングされていないかご確認ください。

  2. ご登録なったメールアドレスが正しくない可能性がございますので、メールアドレスをご確認の上、もう一度アカウントの登録申請をお願いいたします。


・パスワードを変更したい

  パスワードはこちらから変更することが可能です。

  1.アクセスすると以下のようなページが表示されます。Login IDと現在のパスワードを入力することでパスワード変更ページにログインが可能です。

  1


  2.ログインすると以下の画面が表示されますので"Change Password"の項目を選択します。

  1


  3.現在のパスワードと変更後のパスワードを入力して"Change now"ボタンをクリックするとパスワードが変更されます。

  1




ファイルのアップロード

・ファイルアップロードができない・終わらない

  アップロードが完了し、ヒストリーが緑色になるまでそのままお待ちください。

  ウェブブラウザからアップロードできるファイルは一度に2GBまでとなっております。


・大容量のファイルをアップロードしたい

  2GB以上のファイルはウェブブラウザ経由ではアップロードして頂くことができないため

  WinSCPなどのSFTPクライアントを使用してGalaxyサーバーにファイルをアップロードして頂く必要がございます。

  ここではWinSCPやCyberduckを用いて大容量のファイルをGalaxyにアップロードする方法をご紹介いたします。


  Windowsをご利用の方

  WinSCPを利用したアップロード手順をご紹介いたします。

  1.WinSCPを起動し、右画面「New Site」を選択し、以下の項目を設定してください。

  File protocol => SFTP
  Host name => galaxy.dna.affrc.go.jp
  User name => Galaxyのユーザー名
  Password => Galaxyのパスワード

  1

  設定後に「login」をクリックするとGalaxyサーバに接続します。パスワードを聞かれた場合は、Galaxyのパスワードを入力してください。

  

  2.ログインに成功すると登録されたメールアドレスと同じ名前のディレクトリが表示されます。

  このディレクトリの中のファイルがGalaxyにアップロードされます。ダブルクリックでディレクトリの中に移動してください。

  この中にアップロードしたいファイルをコピーしてください。コピーが終わりましたらWinSCPを閉じていただいても結構です。

  1


  

3.Galaxy側からファイルの取り込み操作を行います。

   1.ツール一覧の上部にあるアップロードボタンをクリックしてください。

   2.ウインドウが開くのでその中から「Choose FTP file」ボタンをクリックしてください。

   3.Galaxyへアップロードしたいファイルにチェックを入れてください。

   4.StartをクリックするとGalaxyへのアップロードが開始されます。

  1


  Macintoshをご利用の方

  Cyberduckを利用したアップロード手順をご紹介いたします。

  1.Cyberduckを起動し、画面左上の「新規接続」を選択し、以下の項目を設定してください。

  File protocol(画面最上部) => SFTP
  サーバ => galaxy.dna.affrc.go.jp
  ユーザ名 => Galaxyのユーザー名
  パスワード => Galaxyのパスワード

  1

  設定後に「接続」をクリックするとGalaxyサーバに接続します。パスワードを聞かれた場合は、Galaxyのパスワードを入力してください。

  

  2.ログインに成功すると登録されたメールアドレスと同じ名前のディレクトリが表示されます。

  このディレクトリの中のファイルがGalaxyにアップロードされます。ダブルクリックでディレクトリの中に移動してください。

  この中にアップロードしたいファイルをコピーしてください。コピーが終わりましたらCyberduckを閉じていただいても結構です。

  1


  3.Galaxy側からファイルの取り込み操作を行います。

   取り込み方法はWindowsでの操作と同様にGalaxy上で行います。

  


ファイルアップロード時にエラーになる

ファイルのアップロードを行った際に、エラーが出てアップロードがで きないことがあります。

エラーが出た場合、以下のような操作をすることでエラーを出さずにフ ァイルをアップロードすることができます。

1. Uploadボタンを押す

2. アップロードするファイルを選択

3. 歯車マークのボタンをクリック

4. Use POSIX standardのチェックを外す

5. Convert spaces to tabsのチェックを入れる

6. Startをクリック

1



データとヒストリーの管理

ログインしたらヒストリーからデータが消えてしまった

前回ログインした環境(ウェブブラウザなど)と異なった環境でログインした場合、Galaxyシステムが初回ログインと誤検知してしまい

新規に空のヒストリーを作成してしまうことがあります。

これまでにご利用いただいていたヒストリー、データなどは保存されておりますのでご安心ください。

ヒストリーを前回ご使用いただいたものに切りかえて頂くことで、これまでと同様にご利用いただけます。


・ヒストリーやデータを削除したがディスク使用量が減らない

  Galaxy上からヒストリー/データを削除しても、Galaxyサーバ上のファイルは削除されません。

  これは誤ってデータを削除してもユーザご自身で元に戻していただくことを可能にするためです。(OSの「ゴミ箱」機能に相当します)

  ここではGalaxy上から削除した(見えなくなった)データをサーバ上から削除する方法について、いくつかご紹介いたします。

  操作を行った後にGalaxyを再読み込みして頂くと画面右上の"Using..."の値が変化いたします。


  (1) 1つ目の方法は現在開いているヒストリー内のデータを個別に削除する方法です。

  削除したいデータの右上の"X"ボタンをクリックするとヒストリーからデータが見えなくなります。(サーバからは削除されていません)

  この状態でメニューの"Purge deleted datasets"を実行するとヒストリーから見えなくなったデータがサーバから完全に削除されます。(ヒストリーから見えるデータは削除されません)

  1


  (2) 2つ目は現在閲覧しているヒストリーとその内部のデータを全て削除する方法です。

  削除したいヒストリーを開いている状態でメニューの"Delete permanently"を実行するとヒストリーとその内部のデータが完全にサーバから削除されます。

  1


  (3) ヒストリーを削除したのにディスク使用量が減らない場合

  ヒストリーのメニュー"Delete"を実行した場合など、ヒストリーは削除されたがデータは削除されていない状態になります。

  この状態ではサーバ上から削除はされず、ディスク使用量は減りません。

  この項目では削除したヒストリーと内部のデータをを完全にサーバ上から削除する方法についてご紹介します。


  1.メニューの"Saved histories"を開いてください。


  2.利用可能なヒストリーの一覧が表示されます。"Delete"によって見えなくなったヒストリーを操作するために"Advanced Search"をクリックしてください。

  1


  3."deleted"を選択すると見えなくなったヒストリーの一覧が表示されます。


  4.下図のAに注目して頂くと、"status"の値が"Delete permanently"のものは完全に削除されていますが

"Delete"のものはデータが削除されないまま残った状態です(下図のBに注目して頂くと"Size on Disk"の値が 1015.6 MBになっていることがわかります)。

  完全に削除したいヒストリーの名前をクリックするとメニューが表示されます。ここで"Delete permanently"を選択するとヒストリーとその内部のデータが完全にサーバから削除されます。

  1


  下図のように削除後は"Size on Disk"が0 byteになっていることがわかります。

  1


  

  


ツール関連

・ツールを実行したが、長い間終了しない

  DenovoAssemblyや、大量のデータを処理,出力する場合は終了までに数日を要する場合がございます。

  また実行時のパラメータ設定や、元データによっては更に時間がかかる場合や、ジョブがハングアップする可能性もございます。

  パラメータ設定や、入力ファイルの形式が正しいかご確認ください。

  計算機リソースの占有を避けるため、一定期間までに終了しないジョブは強制終了させていただく場合がございます。


・ツールを実行したが、エラーになる

  入力するファイルの形式が正しいかどうか、以下の点をご確認ください。

  1. ファイルの中身がFASTAやVCF形式などのフォーマット通りになっているかご確認ください。

  2. 空行が含まれているとエラーが出る場合がございます。(最終行も含む)

  3. ツールのオプションの値が正しく設定されているかご確認ください。


  それでも解決しない場合はお手数ですが、こちらにご連絡ください。


・ファイル形式は合っているが、ツールがファイルを認識しない / ファイル形式が間違って認識されてしまう

  ファイルの形式はアップロード時に自動認識されますが、誤認識する場合があります。

  下の図のように手動で形式を選択し直すことで正しい形式に修正することが可能です。


  1. 変更したいファイルの1アイコンをクリックすると下のような編集画面が表示されます。

  2. "datatype"をクリックするとファイル形式の変更画面が表示されます

  1

  3. 変更したいファイル形式を入力して"Save"をクリックすると変更が保存されます。

  1


その他

・"Server Error"と表示されてしまう

  大変申し訳ありません。サーバーに負荷がかかっております。

  ブラウザの更新ボタンまたはF5キーを押してページの再読み込みをしてください。



その他バグの報告や、ツールに関するご質問、ご提案はこちらのメールアドレスにご連絡下さい。
=>

5. 主な解析パイプライン一覧

・リードの前処理をする

・PEリード前処理パイプライン
Paired-endのリードに対して前処理を行います。

  • クオリティによる選別+アダプター配列の除去

・SEリード前処理パイプライン
Single-endのリードに対して前処理を行います。

  • クオリティによる選別+アダプター配列の除去

・リードをリファレンスにマッピングする

・BWAパイプライン(Illumina)
BWAを実行し、アライメント結果を複数のSAMファイルに分類します。Loacl realignment,PCR duplicatesの除去を行い、アライメント結果を取得します。

  • BWA実行
  • アライメント結果の取得と選別
  • GATK : Loacl realignmentの実行
  • Picard : PCR duplicatesの除去

・Bowtieパイプライン(Illumina)
・Bowtie2パイプライン(Illumina)
Bowtie若しくはBowtie2を実行し、アライメント結果を複数のSAMファイルに分類します。Loacl realignment,PCR duplicatesの除去を行い、アライメント結果を取得します。

  • Bowtie実行
  • アライメント結果の取得と選別
  • GATK : Loacl realignmentの実行
  • Picard : PCR duplicatesの除去

SNP/INDELをコールする

・SAMtools,GATKパイプライン
アライメント結果(BAMファイル)からVariantをコールします。

  • SAMtoolsとGATKでvariantのコール
  • SAMtools : VarFilter実行
  • SAMtoolsとGATKで共通してコールされたSNP/INDELの取得+VariantQualityによるフィルタリング

SNP/INDELマーカーを選別する

・SNPマーカーパイプライン
絞り込み検索によりSNPマーカーを選別します。

  • SAMtoolsとGATKでvariantのコール
  • 周辺配列中のvariantの有無の検索
  • 周辺配列の多義塩基、マスクされた塩基の検索
  • Variant Qualityによるフィルタリング
  • DEPTHによるフィルタリング
  • GFFファイルからアノテーション情報の有無を検索
  • 周辺配列のBLAST検索
  • 周辺のサイトが欠損なくコールされているか検索

SNP/INDELプライマーパイプライン

・SNP/INDELプライマーパイプライン
SNPやINDELを含む配列を増幅するプライマーを設計します。

  • プライマー設計
  • BLAST検索によるプライマーの特異性確認
  • 統計情報

SNP/INDELの統計情報・図表を得る

・SNP/INDEL統計パイプライン
VCFファイルやdepthファイルから簡単な統計情報を取得します。

  • Variant Qualityの分布をグラフ化
  • Transition transversion ratioの取得
  • Genotypeごとのvariant数を取得
  • Variantの頻度をグラフ化
  • Depthの頻度,分布をグラフ化

RNA-seqによる発現解析

・RNA-seqパイプライン
TophatとCufflinksを使用して発現量と遺伝子構造を推定します。

  • Tophat
  • Cufflinks

De novo transctiptome assembly

・De novo transctiptome assemblyパイプライン
Trinityを使用してトランスクリプトーム配列をアセンブル、さらにTrinonateを使用してアノテーションを行う。

  • Normalize by kmer coverage: リードをノーマライズ
  • Trinity: アセンブル
  • Transdecoder: ORF予測
  • Trinotate: アノテーション

・De novo transctiptome assembly 発現比較パイプライン
Trinityを使用してトランスクリプトーム配列をアセンブル、サンプル間の発現比較を行う。

  • Normalize by kmer coverage: リードをノーマライズ
  • Trinity: アセンブル
  • RSEM: 発現量推定
  • edgeR: 発現比較

SSRを検出してPrimerを設計する

・SSR検出(MISA)パイプライン
MISAを使用してSSRを検出し、プライマーを設計します。

  • SSR検出(MISA)
  • プライマー設計
  • BLAST検索によるプライマーの特異性確認
  • 統計情報

・SSR検出(SSRIT)パイプライン
SSRITを使用してSSRを検出し、プライマーを設計します。

  • SSR検出(SSRIT)
  • プライマー設計
  • BLAST検索によるプライマーの特異性確認
  • 統計情報