ゼファーネットのロゴ

インド固有の乳牛XNUMX品種のddRADシーケンスに基づくジェノタイピングにより、既存の遺伝的多様性と個体群構造を推測 – Scientific Reports

日付:

品質管理、調整、SNP コール

ddRAD シーケンスに基づいて、58 つの在来牛品種に属する XNUMX 個体の遺伝子型を特定しました。 ギル牛、サヒワル牛、タルパーカー牛、ラティ牛、レッドシンディ牛、カンクレイ牛とその地理的および生態学的分布(図XNUMX)。 1)生産目的、毛色、代表的な農業気候帯、繁殖地、各繁殖地の地理的座標、および補足表に示されている各個体の動物IDおよび性別を含む。 S1; 結果として、138.59 億 23 万の生リードが得られ、これは品種ごとに 2.2 万リード、動物ごとに 138.58 万リードに相当します。 読み取り品質とアダプターの削除に基づいた最初のフィルタリングの後、読み取りの大部分 (99.9 億 XNUMX 万読み取り、XNUMX%) が保持されました (補足表) S2)。 読み取りの高い割合 (94.53%) が、 ボス・タウラス (ARS-UCD1.2) リファレンス アセンブリ (補足表) S2)。 この研究では、異なる牛品種にわたる SNP のみを分析することに努めたため、その後の分析では他のすべての変異は考慮されませんでした。 6 つの牛品種の SNP の数は、個々の変異を呼び出した後、8,42,768 ~ 3,81,966 の範囲でした。 SNP の最大数は SAC (8,42,768) で観察され、続いて GIC (8,34,780)、KAC (8,10,279)、RAC (8,05,020)、RSC (6,72,632)、THC (3,81,966) でした。 (テーブル 1)。 6 つの牛品種にわたるデータセットを組み合わせた結果、合計 43,47,445 の SNP が生成されました。 続いて、VCF ファイルを段階的に処理して、低品質の SNP を除外しました。 まず、SNP を読み取り深さ 2 (RD 2)、読み取り深さ 5 (RD 5)、および読み取り深さ 10 (RD 10) でフィルターしました。 さらなる分析のために、RD 9,82,174 で特定された 5 個の SNP のデータセットがその後の分析に利用されました (表 1)。 低いカバレッジ (RD < 5) に存在するすべての SNP はデータセットから削除されました。 RD 5 で同定された SNP は、欠落遺伝子型の割合、マイナー対立遺伝子頻度、ハーディ ワインバーグ平衡 (HWE) などのさまざまな基準を使用してさらにフィルタリングされました。 一連のフィルタリングにより、合計 84,027 個の高品質 SNP が得られました。 フィルタリング後、品種間の SNP の数は大幅に異なりました。 最も多くのSNPが観察されたのはGIC(34,743)で、次いでRSC(13,092)、KAC(12,812)、SAC(8956)、THC(7356)、RAC(7068)でした(表) 2).

図1
図1

この研究に含まれる XNUMX 品種の牛の地理的分布 (地図はウェブサイトを使用して作成されました。 マップ チャート https://www.mapchart.net/ とペイントマップ https://paintmaps.com/).

表 1 インドの 2 品種の牛の読み取り深度 (RD) 5、10、および 6 で同定された SNP の数。
表 2 一連のフィルタリング基準後の各牛品種の高品質 SNP の数。

バリアントの機能アノテーション

6 つのミルク品種すべての統合された高品質 SNP データセットには、次の注釈が付けられました。 ボス・タウラス (ARS-UCD1.2) 参照ゲノム。 ゲノム内での分布に関しては、多数の注釈付き SNP がイントロン領域 (41,372 SNP、53.87%) に存在し、続いて遺伝子間領域 (26,834 SNP、34.94%) に存在すると予測されました。 エクソン領域に分布する SNP は 948 個 (1.23%) のみでした。 さらに、転写開始部位の上流の 3497 Kb 領域内に 4.55 の SNP (5%) があり、下流に 3661 の SNP (4.77%) がありました。 分析の結果、93'UTR に位置する 0.121 個の SNP (5%)、293'UTR 領域に位置する 0.38 個の SNP (3%) も見つかりました。 途中停止コドンを引き起こすと予測される合計 8 つの SNP (0.01%) も同定されました (図 XNUMX)。 2).

図2
図1

すべての品種のゲノム分布に関する SNP の全体的な分割。

タンパク質をコードする遺伝子に対する SNP の影響に基づいて、SNP は、影響が大きい (10 SNP、0.01%)、影響が中程度 (298 SNP、0.39%)、および影響が低い (697 SNP、0.91%) に分類されました。 。 SNP の大部分 (75,801; 98.69%) が修飾因子として特定されました (補足表) S3)。 さらに、高い割合の SNP (65.74%) が本質的にサイレントであり、次にミスセンス (33.37%) とナンセンス (0.89%) が続き、平均ミスセンス/サイレント比は 0.507 でした (補足表) S4)。 さらに、本研究で特定されたすべての置換遺伝子型の中で、C/T および G/A 遺伝子型が優勢であることが判明したが、A/T 遺伝子型の割合が最も低いことが判明した(補足表) S5)。 個々の品種について、アノテーション結果を図にまとめます。 3 と補足表 S6。 GIC では、最も多くの SNP 32,283 (53.96%) がイントロン領域にあると予測され、次いで遺伝子間領域 20,395 (34.09%) でした。 エクソン領域では 777 (1.3%) のみが検出されました。 GIC と同様に、他のすべての牛品種では、最も多くの SNP がイントロン領域に分布し、続いて遺伝子間およびエクソン領域に分布していました。 たとえば、SAC では、SNP の 53.87% (8429) がイントロン領域で予測され、続いて遺伝子間領域が 33% (5163 SNP)、エキソン領域ではわずか 1.75% (273 SNP) でした。 RAC、RSC、KAC、THC 牛品種でも同様の傾向が観察され、イントロン領域ではそれぞれ 6834 (55.63%)、11,147 (52.12%)、8429 (53.87%)、6374 (52.58%)、4186 (34.08%) の SNP でした。 %)、8192 (38.30%)、5163 (33%)、4507 (37.18%) の SNP が遺伝子間領域にあり、わずか 142 (1.16%)、266 (1.24%)、273 (1.75%)、123 (1.02 %)はエクソン領域で予測されました(図XNUMX)。 3)。 GIC、KAC、RAC、RSC、SAC、THCで同定された同義変異体の数は、それぞれ570、190、101、172、213、87でした。 一方、6 牛品種で検出された非同義変異の数は、それぞれ 165、64、31、82、53、30 頭でした。 TS/TV GIC、KAC、RAC RSC、SAC、THCで観察された比率は、それぞれ2.55、2.64、2.33、2.43、2.51、2.19でした(補足表) S6).

図3
図1

インドの乳牛 XNUMX 品種のゲノムにわたる SNP のゲノム分布。

遺伝子間 SNP の数は 4,639,873 (68.1%) で、1,676,710 (24.6%) はイントロンでした。 転写開始部位の上流 230,365 kb 以内に 3.4 (5%) の SNP があり、下流に 197,827 (2.9%) の SNP がありました。 12,428 個の SNP が 5' UTR に位置し、2613 個が 3' UTR に位置しました。 合計 4356 個の SNP が 2966 個の遺伝子のスプライス部位に位置していました。142 個はスプライスドナー部位にあり、142 個はスプライスアクセプター部位にあり、4072 個はスプライス部位の領域内にありました。 我々は、45,776 個の遺伝子のコード配列に影響を与える 11,538 個の SNP を特定しました。 早期終止コドンを引き起こすと予測される SNP は 221 個、コード配列の増加を引き起こすと予測される SNP は 17 個ありました。 非同義であると予測される SNP の数は 20,828 でした。 遺伝子間 SNP の数は 4,639,873 (68.1%) で、1,676,710 (24.6%) はイントロンでした。 転写開始部位の上流 230,365 kb 以内に 3.4 (5%) の SNP があり、下流に 197,827 (2.9%) の SNP がありました。 12,428 個の SNP が 5' UTR に位置し、2613 個が 3' UTR に位置しました。 合計 4356 個の SNP が 2966 個の遺伝子のスプライス部位に位置していました。142 個はスプライスドナー部位にあり、142 個はスプライスアクセプター部位にあり、4072 個はスプライス部位の領域内にありました。 遺伝子間 SNP の数は 4,639,873 (68.1%) で、1,676,710 (24.6%) はイントロンでした。 転写開始部位の上流 230,365 kb 以内に 3.4 (5%) の SNP があり、下流に 197,827 (2.9%) の SNP がありました。 12,428 個の SNP が 5' UTR に位置し、2613 個が 3' UTR に位置しました。 合計 4356 個の SNP が 2966 個の遺伝子のスプライス部位に位置していました。142 個はスプライスドナー部位にあり、142 個はスプライスアクセプター部位にあり、4072 個はスプライス部位の領域内にありました。 我々は、45,776 個の遺伝子のコード配列に影響を与える 11,538 個の SNP を特定しました。 早期終止コドンを引き起こすと予測される SNP は 221 個、コード配列の増加を引き起こすと予測される SNP は 17 個ありました。 非同義であると予測される SNP の数は 20,828 でした。 遺伝子間 SNP の数は 4,639,873 (68.1%) で、1,676,710 (24.6%) はイントロンでした。 転写開始部位の上流 230,365 kb 以内に 3.4 (5%) の SNP があり、下流に 197,827 (2.9%) の SNP がありました。 12,428 個の SNP が 5' UTR に位置し、2613 個が 3' UTR に位置しました。 合計 4,356 個の SNP が 2966 個の遺伝子のスプライス部位に位置していました。142 個はスプライスドナー部位にあり、142 個はスプライスアクセプター部位にあり、4072 個はスプライス部位の領域内にありました。 45,776 個の遺伝子のコード配列に影響を与える 11,538 個の SNP を特定しました。 早期終止コドンを引き起こすと予測される SNP は 221 個、コード配列の増加を引き起こすと予測される SNP は 17 個ありました。 非同義であると予測される SNP の数は 20,828 でした。

品種の多様性の中で

ヌクレオチド多様性 (π) は THC (π = 0.458) で最も高く、次に RSC (π = 0.364)、SAC (π = 0.363)、GIC (π = 0.356)、KAC (π = 0.348)、RAC (π = 0.347) でした。 )。 ヌクレオチド多様性の平均値は 0.373 でした (表 3)。 タジマの D 値は、正の D 値が観察された GIC と SAC を除き、RSC、RAC、SAC、および THC の 4 つの牛品種で負でした。 最も高い負のタジマ D 値は THC (-1.194) で観察され、続いて RSC (- 1.088)、RAC (- 0.295)、KAC (- 0.279) でした。

表 3 インド乳牛 XNUMX 品種におけるヌクレオチドの多様性と Tajima の D 値。

観察されたヘテロ接合性 (HO) 値の範囲は 0.464 ~ 0.551 でしたが、予想されるヘテロ接合性 (HE) は 0.448 ~ 0.535 の範囲でした。 観察された最も高いヘテロ接合性値は、THC (HO = 0.551) に続いて RAC (HO = 0.523)、RSC (HO = 0.5184)、SAC (HO = 0.5180)、GIC (HO = 0.499) および KAC (HO = 0.464)(表 4)。 平均FIS (近親交配係数) の範囲は THC の -0.253 から KAC の 0.0513 です。 FIS 推定では、XNUMX 種類の牛の中で THC 含有量が最も高かった (FIS = − 0.253) の後に RAC (FIS = − 0.105)、一方、最低の FIS 推定値は KAC で観察されました (FIS = 0.0513) に続いて GIC (FIS = − 0.00063)。 全体的なFIS 分析により、KAC を除くすべての牛品種で過剰なヘテロ接合性が明らかになりました (表 4)。 ヘテロ接合性とFIS 推定では、XNUMX つの牛の品種内に十分な多様性が存在することが示されました。

表 4 インドの乳牛 XNUMX 品種の品種内多様性統計。

品種の多様性の間で

固着指数(F)に基づく遺伝的分化ST) の範囲は 0.2840 ~ 0.3905 であり、品種間の多様性が十分であることを示しています。 RAC-SAC ペア間で最も大きな相違が観察されました (FST = 0.3905)、続いて RSC-RAC 品種ペア (FST = 0.3790)、RSC-SAC 品種ペア (FST = 0.3751)。 KAC-THC 品種ペア (FST = 0.2840)(表 5)。 Neighbor Joining (NJ) ベースのツリーが構築され、6 つの牛品種の個々の動物がその品種の所属に従ってグループ化され、GIC と RSC は研究された 6 つの牛品種の中で最も多様な品種でした。 個体レベルでの系統関係を図に示します。 4。 品種ごとのニュージャージーの木を図に示します。 5、多かれ少なかれ、個々のレベルツリーと裏付けられています。 さらに、UPGMA ベースの系統樹は、100 のブートストラップ値を持つ R プラットフォームの「phangorn」パッケージを使用して品種レベルで構築されました。 各ノードのブートストラップ値は 100% に近く、構築されたツリーの堅牢性が高いことを示しています。 UPGMA に基づく系統樹は、GIC と RSC が最も異なる品種として現れるニュージャージー州に基づく遺伝的分化 (個体レベルおよび品種レベル) によって明らかにされたのと同様の遺伝的関係を反映していました。 GICは主要なノードに出現し、XNUMXつのグループとしてクラスター化されましたが、他の集団はXNUMXつのグループを形成し、RSCはXNUMXつのノードにクラスター化し、RAC、THC、SAC、およびKACは他のサブクラスターを形成しました(図XNUMX)。 6).

表 5 ペアワイズ FST インドの乳牛6品種間の遺伝的分化を示す統計。
図4
図1

Tassel ソフトウェアを使用した、インドの乳牛 58 品種の XNUMX 頭の動物の近隣結合ベースの系統分類。

図5
図1

R プラットフォームの「phangorn」パッケージを使用した、インドの乳牛 6 品種の近隣結合ベースのグループ化。

図6
図1

R プラットフォームの「phangorn」パッケージを使用した、UPGMA に基づく XNUMX つのインドの乳品種の系統分類。

人口構造分析

混合分析は、各個人のゲノムを事前に定義されたクラスターに分割することによって実行されました。 解析は K = 3、4、5、6 で実行されました (図 XNUMX)。 7)。 個体は、それぞれの品種ごとに K = 3 でグループ化できませんでした。 GIC のみを明確に区別することができましたが、KAC と SAC の個人は 4 つのグループとして表示され、RAC、THC、および RSC は一緒にクラスター化されており、それらの共通の祖先を示しています。 K = 5、さらには K = 6 においても、THC、RAC、および RSC は強力な共通の祖先を示すようにクラスター化し、他のすべての個体はそれぞれの品種にクラスター化しました。 個体群構造分析における最良の K は K = XNUMX であり、依然として一緒にクラスター化している RSC と THC を除いて、ほとんどすべての動物がそれぞれの品種にグループ化され、その異種の祖先を明確に示しています。 RSC と THC の遺伝的近さは、さらに詳細な研究とサンプル数の増加によって明らかになる可能性があります。

図7
図1

3 ≤ K ≤ 6 を仮定した混合物の解析。

PCA に基づく分析では、6 つの牛の品種も個別にクラスター化されており、これらが異なる牛の品種であるという事実が補強されています (補足図 XNUMX)。 S1)。 KAC の個体は XNUMX つの象限にまとめられましたが、SAC RAC、THC、および RSC 牛品種の個体は別の象限に分類されました。 GIC 牛品種の個体は、別個の集団として出現しました。

スポット画像

最新のインテリジェンス

スポット画像