02 reference data

教師データセットの形式

dataset/ディレクトリにいくつかの教師データがあり，各サンプル（構造）は pmd 形式の単一ファイル smpl_XXX に記述され，エネルギー，力，および応力情報を含むものとする．

NOTE

現在は１ファイルにつき１構造という形式になっている．構造数が多くなるとファイル数が多くなりすぎて扱いづらいかもしれない．多数構造を１つのファイルに格納するのは検討中…

pmdファイル形式は次のようになっている．詳細は 03_pmd-file 参照．

#
# specorder:  Li  P  S
# energy:  -437.76069
# stress:  0.35400  0.20100  1.01100  0.16400  0.30000  0.06100
# auxiliary_data:  fx  fy  fz
#
    1.000
    13.34800     0.00000     0.00000  0.00  0.00  0.00
     0.00000    15.72500     0.00000  0.00  0.00  0.00
     0.00000     0.00000    12.22300  0.00  0.00  0.00
  128
  1.10000000000001    1.41272100689242e-01   2.58003179650238e-01   3.54880143990837e-01  0.00 0.00 0.00     -0.0292    -0.1009    -0.1176
  1.10000000000002    8.28176505843572e-01   2.57068362480127e-01   1.49660476151518e-01  0.00 0.00 0.00     -0.1132    -0.3853     0.3531
  ...

エネルギー，応力，および補助データ（fx, fy, fz）はオプションとして記述する必要がある．
各原子の力の成分は，各原子のエントリ行の速度情報の後に追加する必要がある．

VASPからのデータ抽出＆変換

VASPを用いた ab-initio MD の計算からDFTデータを抽出する場合， MD ステップごとの位置，エネルギー，力，および応力の情報は， vasprun.xml ファイルから以下のコマンドで取得できる．

$ cd /path/to/dir/that/includes/vasprun.xml/
$ python /path/to/nap/nappy/vasp/vasprun2fp.py

/path/to/dir/that/includes/vasprun.xml/ の部分を適切なディレクトリに変更する．このコマンドを実行すると，dataset ディレクトリ内に smpl_XXX ファイルが作成される．
MDシミュレーションや構造緩和の場合のように，１つの vasprun.xml から複数のサンプルデータを抽出したい場合は， vasprun2fp.py に --sequence オプションを追加する．この場合，ファイル名は #### のようになり，# の部分は 00010 などの数字になる．
また，--specorder=Li,P,S のように，元素の順序を指定する必要がある場合がある．
詳細は vasprun2fp -h でヘルプを参照できる．

nap_doc_jp

エクスプローラー

02 reference data

教師データセットの形式

VASPからのデータ抽出＆変換

グラフビュー

目次

バックリンク