AIって何ができるの？（2019年夏）

f:id:Ichiei:20190803130153j:plain

孫さんにAI後進国と言われてしまって悲しいので現状AIで何ができるのかまとめておきます。

-----------------------------------------------------------------------------

まず、まとめるにあたって人間の脳がどのようなことをしているのか考えて見ましょう。

人間の脳は基本的に五感である視覚、聴覚、味覚、触覚、嗅覚をインプットに体に対して命令を出しております。

例えば、視覚で車が走っているのを見てダッシュして避けるや、他の人がしゃべっていることを聞いて喋る（口を動かす）等々です。

さて、ここで重要なのは、コンピュータはこの五感のうちどれは取り扱えるかということです。

現状では、視覚、聴覚が限界です。

すなわちAIは人間の視覚と聴覚を元に行なっている何かであればできる可能性があります。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

次に、人間が実際にやっていることを考えて見ましょう。

その中でコンピュータができることは、何かを見せること、音を鳴らすこと、ロボットを動かすことはできます。

すなわち、AIはどんなに頑張っても現状では、

視覚、嗅覚をインプットに、何かを見せること、音を鳴らすこと、ロボットを動かすことしかできません。

逆に、ある程度の元になるデータがあれば、あるデータからあるデータを予測することはできますし、かなり汎用的にロボットを動かすこともできます。以下に例をあげます。

あるデータからデータを予測できることの例1

(DataRobot)

DataRobot

あるデータからデータを予測できることの例2

(MutoMLTables)

Using AutoML Tables to Transform Your Business

汎用的にロボットを動かすことの例1

(AmzonRobotics)

Watch an army of robots efficiently sorting hundreds of parcels per hour

汎用的にロボットを動かすことの例2

(Boston Dynamics)

Boston Dynamics: New Robots Now Fight Back

-------------------------------------------------------------------------------------

さて、ここで問題になってくるのは、どのくらいの費用でできるのかだと思います。

こちらをズバッと説明するにはだいぶ力不足なので具体例をあげて説明します。

まず、Googleが公開しているAPIで下記のようなものがあります。

こちらはエンジニアであれば誰しもが使えるようなものなので、かかる費用は実質エンジニアがアプリケーションを少し改修するコストだけです。

・Vision AI(画像分析)

・Video AI(動画分析)

・Translation API(翻訳)

・Natural Language API（構文解析）

・Cloud Text-to-Speech（テキストの読み上げ）

・Cloud Speech-to-Text（文字起こし）

cloud.google.com

次に、汎用的ではない自社でしか保持していないデータを使う場合です。

そのような場合は前述しましたが、DataRobotやAutoML等（上記参照）があるのでここ数年で劇的にコストが下がったと考えて頂いて全く問題はなく、ある程度のデータ量（※1）と、そこそこちゃんと勉強しているエンジニアを２～３ヶ月も使えばそれらしきものはできます。

また、論文ベースであれば、料理画像を元にレシピを書くだとか、動画のデータを元にその内容を記述するだとかが研究されております。

参考3 Using AI to generate recipes from food images(画像からレシピを作成)

ai.facebook.com

参考4 有名な学会のまとめスライド

CVPR 2019 速報 from cvpaper. challenge

www.slideshare.net

しかしながら、先ほど例に出したこちらは人類は月にいけるレベルの話だと思ってもらっていいと思います。

Boston Dynamics: New Robots Now Fight Back

（もはやAIの話ではなくロボットの話としても劇的にすごい）

------------------------------------------------------------------------------------

さて、ここに少し個人的な考えを加えておきたいと思います。

私が直接聞く話でAI関連の話は以下の3つに分類されます

1.「すぐできるので、すぐやりましょう！」

2.「それはたぶん相当難しいので無理です」

3.「それはできるけど倫理的にどうなの？」

まず、1は内容の通りです。

既にまとまったデータがありそのデータの一部を予測する、画像からその画像のラベルを出す、翻訳する、この辺りはもうすぐにでも実装可能です。

ガンガンやりましょう☆☆☆

次に2のパターン。

それは相当難しいですよってパターン。

例えば、

AIが今その人が何を食べたいか予測してその料理レシピをレコメンドする

（何を食べたいかという感情をどうインターネットにのせるか難しい）、

その人の好みの香りをAIが予測してぴったりのコーヒーをレコメンドする

（香りをどうインターネットにのせるか難しい）

何か方法はあるかもしれませんが現状ではまだ難しいです。

最後に3のパターンです。

これはとってもシビアなお話です。

一般的なニュースになっている話だとDeepFake(もしくはDeepFace)とどう付き合うかは個人的は原爆とどう付き合うかくらい難しい問題だと思います。

DeepFakeとは？

You Won’t Believe What Obama Says In This Video! 😉

参考5：Fakeニュースがどのくらい問題かは下記をご参照ください

www.ted.com

さらに問題になったのは下記の2つ。

（あまり詳細は触れません。）

・「Github is banning copies of ‘deepfakes’ porn app DeepNude」

https://bit.ly/2KbDMJH

・「グーグルの画像認識システムは、まだ「ゴリラ問題」を解決できていない」

https://wired.jp/2018/01/18/gorillas-and-google-photos/

そして最近日本でもリクナビが問題になりました。

「リクナビが就活生の「辞退予測」情報を提供――選考の「辞退可能性」も5段階で判定していた」

https://www.itmedia.co.jp/business/articles/1908/01/news154.html

技術的が発達し過ぎてそれを用いてビジネスをすることに対してどうすべきか、かなり高度な倫理観と内外的なガバナンスを敷いて取り組まないといけないと思ってます。

（実際に私は、かなり倫理的に微妙な内容のものを「バズるから作れば？」って言われて胸くそ悪くなったことがあります）

----------------------------------------------------------------------------------

なので、孫さんに後進国とか言われないようにAI,AI,AIと言っているだけでなく、高度なガバナンス能力を持った上で、ガンガン実装しましょうね☆

補足

※1 ある程度の量とは、各変数がとる値の種類数の掛け合わせ×２～３は必要とされております。

具体的には、婚活女子必見の男性のパーソナルデータから年収を予測するシステムを作ったとしましょう。

男性のパーソナルデータを、どこに住んでいるか（東京23区に限定）、働いている業界（10種類くらい）、働いている業種（１０種類くらい？）、年齢（18歳~40歳）、学歴（4種類？）だとすると、23×10×10×22×4×2=約40万くらいあると十分だと言えます。（ただし、このシステムは倫理的にどうなんだ？？？）