Galaxyの使い方

このページではGalaxyを用いた解析について解説、ご紹介をいたします。

目次
1. NGSデータに関して
2. Galaxyを用いた解析方法の紹介
3. ワークフローを利用した解析
4. Galaxyを使ったNGSデータ解析:その他機能
5. よくある質問
6. 主な解析パイプライン一覧



1. NGSデータに関して(2023年度6月版)

このセクションでは、Galaxy/NAACを利用したゲノムデータ解析に先立ち、NGS技術や解析の際に利用するデータ形式について解説いたします。

  • 次世代シーケンス(NGS)技術やシーケンサーについて
  • NGS 解析で用いられるデータ形式について
    • FASTAファイル
    • FASTQファイル
    • SAM/BAM形式ファイル
    • VCF形式ファイル
    • GFF/GTF/BEDファイル




2. Galaxyを用いた解析方法の紹介

このセクションでは、Galaxyの概要について紹介した後、実際の解析ツールを使用しながら、Galaxyの操作方法や機能を解説します。

  • Galaxyシステムとは?
  • Galaxy/NAACを利用するための準備
  • Galaxy/NAACに関する説明
  • Galaxy/NAAC の画面の説明
  • ヒストリー操作方法(データの削除など)
  • データを Galaxy に入れる方法
  • Galaxy/NAACを用いた解析手順の説明




3. ワークフローを利用した解析

このセクションでは、ワークフロー機能を用いた解析パイプラインなどについて解説します。

  • ワークフローとは
  • ワークフローの作り方1.既存ワークフローを用いる
  • ワークフローの作り方2.エディターを使用して新規作成する
  • ワークフローの作り方3.ヒストリーから作成する




4. Galaxyを使ったNGSデータ解析:その他機能

ここでは解析結果の可視化やデータバックアップとジョブの監視などの機能について解説します。

4-1. 可視化ツールについて

4-1-1. 可視化ツールご利用の案内

アカウントの登録をされた方を対象に、NGSデータ可視化のための2種類の環境を提供しております。
Galaxy/AAC上から簡単な操作で解析結果の可視化を行うことができます。
ゲノムブラウザはGalaxyと同様にパスワードにより保護されます。

JBrowse : http://jbrowse.org/

様々なファイル形式に対応したゲノムブラウザです。
マッピング結果、Variant情報などNGSデータの解析結果をブラウザ上で閲覧することができます。

*Galaxy/AACではFASTA, BAM, VCF, GFF3のファイル形式に対応しています。


TASUKE : http://tasuke.dna.affrc.go.jp/

TASUKEはリシーケンシングデータなど複数ゲノムを可視化するゲノムブラウザです。
100以上の大規模なデータにも対応しています。
Variant情報,Depth情報,アノテーションなどを高速に閲覧することができます。

*Galaxy/AACではBAM, VCF, GFF3などのファイル形式に対応しています。
*リファレンスゲノムとしてイネゲノム(IRGSP-1.0)とダイズゲノム(Wiliams82.a2.v1)のみを提供しております。
Os-Nipponbare-Reference-IRGSP-1.0: http://rapdb.dna.affrc.go.jp
Wiliams82 assembly version 2 annotation version 1: https://www.soybase.org/


4-1-2. 利用するには

までメールにて申請をお願いいたします。
その際、下記の必要事項の記入をお願いいたします。

[ユーザID] Galaxy/AACのユーザID
[利用したい環境] JBrowse or TASUKE
[使用するゲノムの種類] (TASUKEを利用したい方のみ)現在は、イネゲノム(irgsp-1.0)とダイズゲノム(Wiliams82.a2.v1)をご利用いただけます。
※1アカウントにつき1ゲノムのみ使用することができます。
[登録するデータの情報] (TASUKEを利用したい方のみ)登録用フォーマットをダウンロードし、登録するデータの情報を記入してください。ブラウザに登録されたデータが表示されます。表示例は公開版TASUKE(http://rice50.dna.affrc.go.jp)をご覧ください。
登録用フォーマットのダウンロードはこちら:csv download

申請後に登録方法と閲覧用のURLについてご連絡いたします。

4-1-3.利用方法

・4-1-3-1. JBrowse

利用申請が完了しますとGalaxy上からJBrowseのインストール作業(データの追加/削除)を行うことができます。
まずは閲覧用URLへのアクセスが可能かご確認ください。
データ追加/削除はツールパネルの"JBrowse_tools"内のツール群を使用します。

1. JBrowse List
このツールは現在JBrowseに登録されているReference配列名の一覧と閲覧用のURLを取得します。

2. JBrowse make Reference
リファレンス配列をJBrowseに登録します。

3. JBrowse add BAM
BAMファイルを新規トラックとして登録します。
アライメント情報を閲覧できます。

4. JBrowse add GFF
GFFファイルを新規トラックとして登録します。

5. JBrowse add VCF
VCFファイルを新規トラックとして登録します。

6. JBrowse generate index
アノテーション情報やIDで検索をするためのインデックスを生成します。

7. JBrowse delete Track
指定のトラックを削除します。

8. JBrowse delete Reference
登録されたリファレンス配列を削除します。


インストール作業が終了しましたら、閲覧用URLへアクセスして
データ追加/削除が行われているかご確認ください。

・4-1-1-2. TASUKE

利用申請が完了しますとGalaxy上からJBrowseのインストール作業(データの追加/削除)を行うことができます。
まずは閲覧用URLへのアクセスが可能かご確認ください。
データ追加/削除はツールパネルの"TASUKE_tools"内のツール群を使用します。

1. tasuke accession list
このツールはユーザーに割り当てられたIDを取得します。
ここから取得できるIDを対象にBAMやVCFファイルのアップロードを行うことができます。

2. tasuke bam upload
BAMファイルをTASUKEに反映させます。
アップロード先のIDとBAMファイルを指定して実行すると
指定したIDのRead depth情報をTASUKE上で閲覧できます。

3. tasuke bam delete
アップロードしたBAMファイルを削除します。
削除したいIDを指定することでTASUKE上からdepth情報が削除されます。

4. tasuke vcf upload
VCFファイルをTASUKEに反映させます。
アップロード先のIDとVCFファイルを指定して実行すると
指定したIDのvariant情報をTASUKE上で閲覧できます。

5. tasuke vcf delete
アップロードしたVCFファイルを削除します。
削除したいIDを指定することでTASUKE上からvariant情報が削除されます。


インストール作業が終了しましたら、閲覧用URLへアクセスして
データ追加/削除が行われているかご確認ください。


・4-2. ジョブ監視機能

ジョブの状態をGalaxy上から閲覧可能です。Toolsから「Job moitor」を選択すると実行中のジョブや過去のジョブについて状態を閲覧することができます。

また、日付による絞り込み検索が可能です。

monitoring



・4-3. バックアップ機能 ※本機能は現在停止しています

すぐに使わないファイルなど、退避させておきたいファイルをヒストリーの外の領域にコピーすることが可能です。

コピーされたファイルはSFTPクライアント等で操作可能です。

backup



5. よくある質問

アカウント関連

・アカウント登録のメールが届かない
・パスワードを変更したい

ファイルのアップロード

・ファイルアップロードができない・終わらない
・大容量のファイルをアップロードしたい
・ファイルアップロード時にエラーになる

データとヒストリーの管理

・ログインしたらヒストリーからデータが消えてしまった
・ヒストリーやデータを削除したがディスク使用量が減らない

ツール関連

・ツールを実行したが、長い間終了しない
・ツールを実行したが、エラーになる
・ファイル形式は合っているのに、ツールがファイルを認識しない / ファイル形式が間違って認識されてしまう
・ペアエンドのfastqファイルから、片方にしかないリードを取り除きたい

その他

・"Server Error"と表示されてしまう

アカウント関連

・アカウント登録のメールが届かない

  通常3営業日以内にLogin IDとPasswordをお知らせいたします。メールが届かない場合は以下の2点をご確認ください。

  1. 登録メールの送信元affrc.go.jpがご使用になっているメールソフトでフィルタリングされていないかご確認ください。

  2. ご登録なったメールアドレスが正しくない可能性がございますので、メールアドレスをご確認の上、もう一度アカウントの登録申請をお願いいたします。


・パスワードを変更したい

  パスワードはこちらから変更することが可能です。

  1.アクセスすると以下のようなページが表示されます。Login IDと現在のパスワードを入力することでパスワード変更ページにログインが可能です。

  1


  2.ログインすると以下の画面が表示されますので"Change Password"の項目を選択します。

  1


  3.現在のパスワードと変更後のパスワードを入力して"Change now"ボタンをクリックするとパスワードが変更されます。

  1




ファイルのアップロード

・ファイルアップロードができない・終わらない

  アップロードが完了し、ヒストリーが緑色になるまでそのままお待ちください。

  ウェブブラウザからアップロードできるファイルのサイズは2GBまでとなっております。


・大容量のファイルをアップロードしたい

  2GB以上のファイルはウェブブラウザ経由ではアップロードして頂くことができないため

  WinSCPなどのSFTPクライアントを使用してGalaxyサーバーにファイルをアップロードして頂く必要がございます。

  ※本機能をご利用いただくには事前に簡単な手続きが必要です。詳細はアカウント登録時にご送付したメールを

   参照いただくか、galaxy@ml.affrc.go.jpに問い合わせください。


  ここではWinSCPやCyberduckを用いて大容量のファイルをGalaxyにアップロードする方法をご紹介いたします。


  Windowsをご利用の方

  WinSCPを利用したアップロード手順をご紹介いたします。

  1.WinSCPを起動し、右画面「New Site」を選択し、以下の項目を設定してください。

  File protocol => SFTP
  Host name => galaxy.dna.affrc.go.jp
  Port => 22
  User name => Galaxyのユーザー名
  Password => Galaxyのパスワード

  1

  設定後に「login」をクリックするとGalaxyサーバに接続します。パスワードを聞かれた場合は、Galaxyのパスワードを入力してください。

  

  2.ログインに成功すると登録されたメールアドレスと同じ名前のディレクトリが表示されます。

  このディレクトリの中のファイルがGalaxyにアップロードされます。ダブルクリックでディレクトリの中に移動してください。

  この中にアップロードしたいファイルをコピーしてください。コピーが終わりましたらWinSCPを閉じていただいても結構です。

  1


  

3.Galaxy側からファイルの取り込み操作を行います。

   1.ツール一覧の上部にあるアップロードボタンをクリックしてください。

   2.ウインドウが開くのでその中から「Choose FTP file」ボタンをクリックしてください。

   3.Galaxyへアップロードしたいファイルにチェックを入れてください。

   4.StartをクリックするとGalaxyへのアップロードが開始されます。

  1


  Macintoshをご利用の方

  Cyberduckを利用したアップロード手順をご紹介いたします。

  1.Cyberduckを起動し、画面左上の「新規接続」を選択し、以下の項目を設定してください。

  File protocol(画面最上部) => SFTP
  サーバ => galaxy.dna.affrc.go.jp
  ポート => 22
  ユーザ名 => Galaxyのユーザー名
  パスワード => Galaxyのパスワード

  1

  設定後に「接続」をクリックするとGalaxyサーバに接続します。パスワードを聞かれた場合は、Galaxyのパスワードを入力してください。

  

  2.ログインに成功すると登録されたメールアドレスと同じ名前のディレクトリが表示されます。

  このディレクトリの中のファイルがGalaxyにアップロードされます。ダブルクリックでディレクトリの中に移動してください。

  この中にアップロードしたいファイルをコピーしてください。コピーが終わりましたらCyberduckを閉じていただいても結構です。

  1


  3.Galaxy側からファイルの取り込み操作を行います。

   取り込み方法はWindowsでの操作と同様にGalaxy上で行います。

  


ファイルアップロード時にエラーになる

ファイルのアップロードを行った際に、エラーが出てアップロードができないことがあります。

エラーが出た場合、以下のような操作をすることでエラーを出さずにファイルをアップロードすることができます。

1. Uploadボタンを押す

2. アップロードするファイルを選択

3. 歯車マークのボタンをクリック

4. Use POSIX standardのチェックを外す

5. Convert spaces to tabsのチェックを入れる

6. Startをクリック

1



データとヒストリーの管理

ログインしたらヒストリーからデータが消えてしまった

前回ログインした環境(ウェブブラウザなど)と異なった環境でログインした場合、Galaxyシステムが初回ログインと誤検知してしまい

新規に空のヒストリーを作成してしまうことがあります。

これまでにご利用いただいていたヒストリー、データなどは保存されておりますのでご安心ください。

ヒストリーを前回ご使用いただいたものに切りかえて頂くことで、これまでと同様にご利用いただけます。


・ヒストリーやデータを削除したがディスク使用量が減らない

  Galaxy上からヒストリー/データを削除しても、Galaxyサーバ上のファイルは削除されません。

  これは誤ってデータを削除してもユーザご自身で元に戻していただくことを可能にするためです。(OSの「ゴミ箱」機能に相当します)

  ここではGalaxy上から削除した(見えなくなった)データをサーバ上から削除する方法について、いくつかご紹介いたします。

  操作を行った後にGalaxyを再読み込みして頂くと画面右上の"Using..."の値が変化いたします。


  (1) 1つ目の方法は現在開いているヒストリー内のデータを個別に削除する方法です。

  削除したいデータの右上の"X"ボタンをクリックするとヒストリーからデータが見えなくなります。(サーバからは削除されていません)

  この状態でメニューの"Purge deleted datasets"を実行するとヒストリーから見えなくなったデータがサーバから完全に削除されます。(ヒストリーから見えるデータは削除されません)

  1


  (2) 2つ目は現在閲覧しているヒストリーとその内部のデータを全て削除する方法です。

  削除したいヒストリーを開いている状態でメニューの"Delete permanently"を実行するとヒストリーとその内部のデータが完全にサーバから削除されます。

  1


  (3) ヒストリーを削除したのにディスク使用量が減らない場合

  ヒストリーのメニュー"Delete"を実行した場合など、ヒストリーは削除されたがデータは削除されていない状態になります。

  この状態ではサーバ上から削除はされず、ディスク使用量は減りません。

  この項目では削除したヒストリーと内部のデータをを完全にサーバ上から削除する方法についてご紹介します。


  1.メニューの"Saved histories"を開いてください。


  2.利用可能なヒストリーの一覧が表示されます。"Delete"によって見えなくなったヒストリーを操作するために"Advanced Search"をクリックしてください。

  1


  3."deleted"を選択すると見えなくなったヒストリーの一覧が表示されます。


  4.下図のAに注目して頂くと、"status"の値が"Delete permanently"のものは完全に削除されていますが

"Delete"のものはデータが削除されないまま残った状態です(下図のBに注目して頂くと"Size on Disk"の値が 1015.6 MBになっていることがわかります)。

  完全に削除したいヒストリーの名前をクリックするとメニューが表示されます。ここで"Delete permanently"を選択するとヒストリーとその内部のデータが完全にサーバから削除されます。

  1


  下図のように削除後は"Size on Disk"が0 byteになっていることがわかります。

  1


  

  


ツール関連

・ツールを実行したが、長い間終了しない

  DenovoAssemblyや、大量のデータを処理,出力する場合は終了までに数日を要する場合がございます。

  また実行時のパラメータ設定や、元データによっては更に時間がかかる場合や、ジョブがハングアップする可能性もございます。

  パラメータ設定や、入力ファイルの形式が正しいかご確認ください。

  計算機リソースの占有を避けるため、一定期間までに終了しないジョブは強制終了させていただく場合がございます。


・ツールを実行したが、エラーになる

  入力するファイルの形式が正しいかどうか、以下の点をご確認ください。

  1. ファイルの中身がFASTAやVCF形式などのフォーマット通りになっているかご確認ください。

  2. 空行が含まれているとエラーが出る場合がございます。(最終行も含む)

  3. ツールのオプションの値が正しく設定されているかご確認ください。


  それでも解決しない場合はお手数ですが、こちらにご連絡ください。


・ファイル形式は合っているが、ツールがファイルを認識しない / ファイル形式が間違って認識されてしまう

  ファイルの形式はアップロード時に自動認識されますが、誤認識する場合があります。

  下の図のように手動で形式を選択し直すことで正しい形式に修正することが可能です。


  1. 変更したいファイルの1アイコンをクリックすると下のような編集画面が表示されます。

  2. "datatype"をクリックするとファイル形式の変更画面が表示されます

  1

  3. 変更したいファイル形式を入力して"Save"をクリックすると変更が保存されます。

  1

  


・ペアエンドのfastqファイルから、片方にしかないリードを取り除きたい

ペアエンドのfastqファイルに、片方にしか存在していないリードがあると、様々なツールでエラーになり利用できないことがあります。

その場合、NGS DATA ANALYSIS > Preprocess: FASTQ > Pairing preprocessed FASTQで片方にしか存在していないリードを除去することができます。 1


その他

・"Server Error"と表示されてしまう

  大変申し訳ありません。サーバーに負荷がかかっております。

  ブラウザの更新ボタンまたはF5キーを押してページの再読み込みをしてください。



その他バグの報告や、ツールに関するご質問、ご提案はこちらのメールアドレスにご連絡下さい。
=> galaxy@ml.affrc.go.jp

6. 主な解析パイプライン一覧

・リードの前処理をする

・PEリード前処理パイプライン
Paired-endのリードに対して前処理を行います。

  • クオリティによる選別+アダプター配列の除去

・SEリード前処理パイプライン
Single-endのリードに対して前処理を行います。

  • クオリティによる選別+アダプター配列の除去

・リードをリファレンスにマッピングする

・BWAパイプライン(Illumina)
BWAを実行し、アライメント結果を複数のSAMファイルに分類します。Loacl realignment,PCR duplicatesの除去を行い、アライメント結果を取得します。

  • BWA実行
  • アライメント結果の取得と選別
  • GATK : Loacl realignmentの実行
  • Picard : PCR duplicatesの除去

・Bowtieパイプライン(Illumina)
・Bowtie2パイプライン(Illumina)
Bowtie若しくはBowtie2を実行し、アライメント結果を複数のSAMファイルに分類します。Loacl realignment,PCR duplicatesの除去を行い、アライメント結果を取得します。

  • Bowtie実行
  • アライメント結果の取得と選別
  • GATK : Loacl realignmentの実行
  • Picard : PCR duplicatesの除去

SNP/INDELをコールする

・SAMtools,GATKパイプライン
アライメント結果(BAMファイル)からVariantをコールします。

  • SAMtoolsとGATKでvariantのコール
  • SAMtools : VarFilter実行
  • SAMtoolsとGATKで共通してコールされたSNP/INDELの取得+VariantQualityによるフィルタリング

SNP/INDELマーカーを選別する

・SNPマーカーパイプライン
絞り込み検索によりSNPマーカーを選別します。

  • SAMtoolsとGATKでvariantのコール
  • 周辺配列中のvariantの有無の検索
  • 周辺配列の多義塩基、マスクされた塩基の検索
  • Variant Qualityによるフィルタリング
  • DEPTHによるフィルタリング
  • GFFファイルからアノテーション情報の有無を検索
  • 周辺配列のBLAST検索
  • 周辺のサイトが欠損なくコールされているか検索

SNP/INDELプライマーパイプライン

・SNP/INDELプライマーパイプライン
SNPやINDELを含む配列を増幅するプライマーを設計します。

  • プライマー設計
  • BLAST検索によるプライマーの特異性確認
  • 統計情報

SNP/INDELの統計情報・図表を得る

・SNP/INDEL統計パイプライン
VCFファイルやdepthファイルから簡単な統計情報を取得します。

  • Variant Qualityの分布をグラフ化
  • Transition transversion ratioの取得
  • Genotypeごとのvariant数を取得
  • Variantの頻度をグラフ化
  • Depthの頻度,分布をグラフ化

RNA-seqによる発現解析

・RNA-seqパイプライン
TophatとCufflinksを使用して発現量と遺伝子構造を推定します。

  • Tophat
  • Cufflinks

De novo transctiptome assembly

・De novo transctiptome assemblyパイプライン
Trinityを使用してトランスクリプトーム配列をアセンブル、さらにTrinonateを使用してアノテーションを行う。

  • Normalize by kmer coverage: リードをノーマライズ
  • Trinity: アセンブル
  • Transdecoder: ORF予測
  • Trinotate: アノテーション

・De novo transctiptome assembly 発現比較パイプライン
Trinityを使用してトランスクリプトーム配列をアセンブル、サンプル間の発現比較を行う。

  • Normalize by kmer coverage: リードをノーマライズ
  • Trinity: アセンブル
  • RSEM: 発現量推定
  • edgeR: 発現比較

SSRを検出してPrimerを設計する

・SSR検出(MISA)パイプライン
MISAを使用してSSRを検出し、プライマーを設計します。

  • SSR検出(MISA)
  • プライマー設計
  • BLAST検索によるプライマーの特異性確認
  • 統計情報

・SSR検出(SSRIT)パイプライン
SSRITを使用してSSRを検出し、プライマーを設計します。

  • SSR検出(SSRIT)
  • プライマー設計
  • BLAST検索によるプライマーの特異性確認
  • 統計情報