※2020年4月6日の投稿記事を再編集しました。
※キカガクはリニューアルされ、この記事で紹介している講座は受講できません。
KIKAGAKU | AIを無料で学べる学習サイト が Web ニュースで紹介されていた。
コロナ禍で家にいることが多くなったこともあり、このサイトで AI を学んでみることにした。
はじめに
コンテンツのコンセプトが説明されている。
利用する上で、費用や環境等に支障がないことがわかり安心。
学習する側に立った配慮がなされている。
学習方法や学習環境の構築についても懇切丁寧に説明されている。
データサイエンスの基礎
データサイエンスと社会への応用
データサイエンスとは
データサイエンスとは、与えられたデータに基づいて知見を見出し、次の行動にその知見を活かすこと。
データサイエンティストとは、データサイエンスを駆使する人のこと。
ビジネスの中に存在する課題を把握し、課題に対しデータ解析を行い、解決への活路を見つけ、その解決策を継続的に利用可能な形に変えていくスキルが必要。
データ解析の方法
- データの集計
- データの可視化
- データの予測
与えられた過去のデータの傾向に基づいて、次の値を予測する。
入力値に対する目標値の両方を与えて、入出力間の関係を学習させる。
データ解析が活用されている事例
- 製造業
異常検知、在庫管理(組合せ最適化)
- 小売
リコメンド(類似度)
- 医療
医師の判断を支援
人工知能・機械学習・ディープラーニング
人工知能 (Artificial Intelligence)
- 学習
規則性を見つけてモデル化すること。
入力値(情報)と目標値(答え)を与え、その関係性・規則性を見つけ出すこと。
- 推論
学習を終えて得られた学習済みモデルを用いて、新しい入力値に対してその予測値を求めること。
AI 搭載のプロダクトには、この学習済みモデルを用いた推論機能が組み込まれている。
機械学習 (Machine learning)
機械学習は、収集したデータに基づいてモデルの学習を行い、そのデータの構造の特徴を掴むこと。
- 教師あり学習
学習では、入力値 xx (情報)と目標値 tt (答え)のセットを与え、その規則性・関係性を見つける。そして、学習で獲得した学習済みモデル(入力値と目標値の規則性・関係性)と新たな入力値 xx から、予測を行う。また、この予測の事を推論と呼ぶ。
回帰 (regression) は、目標値に連続値を取る(家賃、売上、株価など)。
分類 (classification) は、目標値にカテゴリを取る(犬/猫、男/女、赤ワイン/白ワインなど)。
- 教師なし学習
目標値(答え)がない。教師あり学習と異なり、予測する対象が決まっていない。
主にデータの背後に存在する本質的な構造を抽出するために用いられる。
人間が統計量などを用いて、出力結果に対する意味解釈を行う。
代表的な例として、データに対してクラスター(グループ)を作るクラスタリングがある。
データ間の距離が近いデータをクラスターとする k-平均法は、クラスタリングの代表的なアルゴリズムである。
- 強化学習
少数もしくは全くデータがない状況でも学習を行うことができる。
行動しながらデータを収集し、そのデータで学習を行い、次の行動を決めていくといったプロセスまでが強化学習には含まれている、
シミュレーションできる環境もしくは、実機で何度も再現できる環境が必要である。
ディープラーニング (Deep Learning)
アルゴリズムは、実際にコンピューターが実行できるレベルまで具体的な手順を明確化したもの。
機械学習アルゴリズムのひとつがディープラーニング。
ディープラーニングは主に教師あり学習で用いられる。
ディープラーニングは、特徴抽出の工程をアルゴリズムの一部として組み込むことに成功し、データに基づいて特徴抽出まで学習できることで、属人的であった工程を省くことができるようになった。
ディープラーニング以外の機械学習アルゴリズムとして、決定木やロジスティック回帰などがある。
機械学習の開発ロードマップ
機械学習の開発ロードマップ(開発プロセス)は次のような順序になる。
- 企画・ヒアリング
- 環境構築
- データ収集
- データ前処理
- モデル構築
- プロトタイプ構築
- 運用・検証
- 再学習
編集履歴
2020/08/02 全面書き換え
2021/05/15 再編集