あさのひとりごと

3日坊主にならないように、全力を尽くします。 記事は個人のひとりごとです。所属する組織の意見を代表するほど、仕事熱心じゃないです。

GTC Japan 2017(@NVIDIA) に参加しました

2017/12/12(火)~12/13(水)にお台場ヒルトン東京で開催された、NVIDIA主催 GTC Japanに参加しました。 昨今のAIブームによる大変な賑わいで、かなり人に酔ってしまいましたがとても興味深いセッションや展示がたくさんでした。

簡単ですが、ログを記録です。

TensorFlow:Open Source Machine Learning

Google.Inc Wolff Dobson

ML/DLのオーバービュー/TensorFlowとは何か?

TensorFlowの動作環境

  • CPU/GPU/TPU/Android/iOS/IoT
  • NVIDIA CUDA/Intelで動作

    TensorFlow Eager Execution

  • Define-by-Runでモデルを記述できるパッケージ
  • モデルのデバッグが容易
  • インストールはpip install tf-nightly
  • GPUも使える
  • コードはかなり楽に書けるが、パフォーマンスはよろしくない

    TensorFlow Lite

  • Android向けTensorFlowライブラリ
  • Flatbuffersでシリアライズ(ゲーム向けのもの)
  • バイス用でモデルを動かすためバイナリが10分の1
  • ハードウエアアクセラレーション有(Android Neural Network APIなど)

    Magenta ProjectおよびSketch-RSSの紹介

TensorFlow Liteのアーキテクチャ概要 f:id:dr_asa:20171214153234j:plain

TensorFlow LiteのデモをするGooglerをTensorFlow Liteを使って実装したAndroidアプリで推論したところ f:id:dr_asa:20171214153604p:plain

CUDA9 Deep Drive

エヌビディア合同会社 成瀬さん

CUDA9とは

  • Volta対応/Tesla V100/Tensorコアオーバービュー

    Volta対応

  • Voltaアーキテクチャ概要
  • NVLink(300GB/sec)/VoltaMPI対応
  • DLだけではなくHPCでも使用

    Tensorコア

  • 4×4の行列を1サイクルで計算
  • 16×16行列を32スレッドで協調実行
  • 行列積算のためのテンプレートを容易
  • WMMAテンプレートでTensorコア用のデータ型を用意
  • WMMA:ロード命令
  • WMMA:行列乗算
  • WMMA:ストア命令  など
  • WARP同期用ビルドイン関数あり

    cuTLASS(ver0.1)

  • CUDAカーネルが使用できる高性能な行列積テンプレート(DL向け)

    Cooperative Groups

  • スケーラブルで柔軟性の高いスレッド間同期通信機構
  • 協調動作するスレッドグループの定義/分割同期が容易にできる
  • スレッドブロック内/シングルGPU内/マルチGPU間それぞれで使える
  • マルチグリッドグループは粒子シミュレーションや時間発展系の演算で使う

    その他開発ツールおよびライブラリの改善

Deep Lerning with Apache MxNet and Gluon

Amazon Web Services Inc Sunil Mallya/Joseph Spisak

"AI is the new Electoricity"

  • あらゆる産業でデータサイエンスが進む。メディアだけでなく医療/ファイナンス/カスタマーエクスペリエンスなど
  • データサイエンティストの仕事を楽にすることがAWSの目的
  • (インフラ)-(フレームワーク)-(プラットフォーム)-(サービス)すべてのレイヤーでサービスを提供する

    Amazon SageMaker

  • MLモデルを大規模に構築/トレーニング/デプロイするためのサービス
  • MLはデータ前処理やトレーニングだけでなく、継続してアプリをデプロイすることが重要(かつ、難しい)
  • フレームワークアルゴリズムを選択可能(Apache MXNetやTensorFlowなど)

    DeepLens

  • 開発者向けの画像推論用カメラ
  • review

    Gruon

  • DL用のフレームワーク(API?)
  • Microsoftと協業
  • Apache MXNet/Caffe2/CNTKなどを選べる
  • 分散学習も可能
  • 文法はPythonに酷似(デモを見たけど非常に簡潔だった)
  • Github上にCNNやRNNのサンプルがある

    その他ビデオ認識/音声認識/翻訳などのAPIも公開

    AWSの強固なパートナー戦略

  • エンタープライズ顧客での導入事例
  • 日本国内でも展開(開発者の教育に力を入れる)
  • 特にMLに関してはMicrosoftとの協業を強調

AI・ビックデータ技術の最先端の研究開発・社会実装を加速する計算基盤 東工大TSUBAME3.0

東京工業大学 松岡先生/国立研究開発法人産業技術総合研究所 小川さん

スパコンに求められるもの(社会基盤)

TSUBAMEの歴史

  • 2000年~15年にわたり開発
  • 2011年にGordon Bell賞受賞

    ABCIの紹介

  • ラージスケールAI向けスパコン
  • アカデミアと産業のコラボによる開発
  • 東京大学柏キャンパスに建築中
  • ペタバイト級大規模モデリングをサポート
  • 2018年春~夏にリリース予定
  • 1088台の計算ノード 4352GPU
  • 富士通2U2サーバ NVIDIA TeslaV100 Infiniband
  • 1ラックで1PFLOPS
  • Water/Air Hybrid Cooling Systems
  • ソフトは今後公開予定

大規模有限要素解析とAIによるモンテカルロ地震動強度分析

東京大学 藤田先生

SC17でBest Poster Award受賞

研究概要

  • HPCによる地震動の有限要素解析による物理シミュレーションを行った結果画像をもとに、DLを使って学習を行い地震対策シナリオを作る
  • レイヤー化された地盤構造データを用意
  • 地底内部はあいまいさがあるのでモンテカルロシミュレーション
  • 10km×10kmを50mの分解能で解析
  • 非線形波動方程式を解くため大規模な計算が必要
  • 計算を安定化させるため陰解法を採用

有限要素解析

  • 京コンピュータ(理研
  • 10.6PFLOPS
  • ソルバーは自作(前処理方程式を荒く解くことで共役勾配法を使う)
  • 行列ベクトル積の高速化のため、非構造格子を構造格子にする

DLによる推論

  • 8350m×7200mで50mの分解能で20段階で壊れやすさを評価するAIを作成
  • 24360データセット使用(一部テストセット)
  • Chainerで実装
  • シミュレーションのような精度はでないもののそこそこの推論が可能
  • 計算量がシミュレーションに比べはるかに少ないので有用

解くべき波動方程式 f:id:dr_asa:20171214153752j:plain

感想

セッションの数はDLメインでしたが、HPCブースの賑わいは熱くどのセッションも満席立ち見でした。 企業ブースは日本HPやIBMDellなどのハードウエアベンダーだけでなく、RedHatやシスコ、またHPC系のソルバーを扱うベンダーや仮想化ソフトウエアのベンダーなども出展されていていました。 クラウドベンダーではAWSの出展がありましたが、休憩時間ではブースに近寄れないほどの大盛況ぶりでした。

昨今のAIブームはやや過熱気味なところもあるかもしれませんが、HPCやDLなどの高度な数理を必要とする技術はこれからますます重要になってくるので、しっかりウォッチしたいなと思いました。いやいやいやいや、ウォッチするだけではなく自分でコードを書く必要があるなと。

あと、(やはり)アカデミックからの発表が多く、イケてる勉強会は学会、イケてるハンズオンは大学の講義、イケてる書籍は大学の教科書なのだよなと。高度な応用技術・最先端の実装を理解するための、基礎が大事だと改めて。

最後に、心ときめいた♥写真の数々です。 f:id:dr_asa:20171214153844j:plain f:id:dr_asa:20171214154512j:plain f:id:dr_asa:20171214154536j:plain

Amazon Web Servicesのソリューションアーキテクトのみなさま、ご招待いただきありがとうございました😊

以上

© 2017 ASA.