H2Oの操作の流れについて

このページ内の目次

この度、弊社ではH2O.aiに関するブログを開始することにいたしました。
機械学習を自社のビジネスに活用する皆様のお役に立つべく、技術的な情報や、製品の使い方を中心に記載する予定です。

初回は、H2O.ai社製品「H2O Driverless AI」の基本的な操作の流れをご紹介いたします。

H2O Driverless AIとは

Driverless AIH2O.ai社が開発した機械学習自動化プラットフォームで、データサイエンティストのタスクを自動で高速に行うことができます。

以下、Driverless AIの基本的な操作の流れを紹介します。

データアップロード

まずは、使用するデータをDriverless AIにアップロードします。

ローカルマシンからデータをアップロードすることはもちろんですが、HDFSAmazon S3SnowflakeGoogle Big QueryAzure Blob Storeなど様々なデータソースからアップロードすることもできます。

 データの理解

データのアップロードが完了すると、カラムごとのヒストグラムや基本統計量など、データの特徴確認機能を利用できます。

また、15種類の可視化手法の中からDriverless AIが自動で表示すべき手法を判断し、データに応じたグラフを確認することができます。これにより、データの外れ値や欠損値、カラム間の相関関係などを理解することができます。

 

モデル作成

アップロードしたデータでモデルの作成を行います。

世界トップのデータサイエンティストノウハウが入ったDriverless AIは、GPUパワーを活用し、高度な特徴量設計(※1)やパラメーターチューニング(※2)など、数千の可能なモデルを反復し、モデルを作成します。

※1特徴量設計:モデルの予測精度を高める為に、説明変数(予測したい変数を説明する変数)を様々な形に変換させ、最適な説明変数を作成することです。

※2パラメーターチューニング:モデルの予測精度を高める為に、モデルの設定値や制限値を何にすべきか試行錯誤することです。

 結果の確認

モデル作成が完了すると、画面上で簡単な結果を確認でき、Driverless AIが自動で作成するレポートでは、結果の詳細をWord形式で確認することができます。

 また、Driverless AIが作成したモデルの理解を深める為に、多数のグラフを自動的に生成する機能があります。

目的変数(予測したい変数)に影響を大きく与えている説明変数はどれなのか、ある説明変数の値のみを変化(他の説明変数の値は固定)させると、目的変数の値はどのように変化するのか等を確認することができ、モデルの理解を深められます。

スコアリングパイプラインの展開

スコアリングパイプラインとは、作成したモデルを業務の中に組み込むことができるパイプライン機能です。

この機能を用いて、作成したモデルを簡単に実行モジュールとして出力できます。

また、Java, Python, Rの実行モジュールとして出力することができます。

まとめ

今回は、データのアップロードからスコアリングパイプラインの展開までのDriverless AIの基本的な操作の流れについて紹介しました。

モデル作成時の具体的な設定方法については、今後ご紹介させていただく予定です。

 

トップに戻る

関連記事

前へ

【メディア掲載】日経クロストレンド:NRF2020現地リポートの中で小売業最新AIとしてCrowdANALYTIXが紹介されました

次へ

Covid-19の地域別感染拡大予測の取り組み

Page Top