生成AIの歴史を振り返り、未来を展望する

#生成AI
#AI

DIGITAL

nabe

2024.09.25

はじめに：あらためて、生成AIとは何か？

生成AIとは、文章、画像、音楽など、新しいコンテンツを生成することができる人工知能の一種です。従来のAIが既存のデータからパターンを学習し、新たなデータに対する予測や分類を行うのに対し、生成AIは学習したデータに基づいて、全く新しいものを生み出すことができます。

近年、生成AIが注目される背景には、深層学習の発展が大きく関わっています。深層学習は、人間の脳の神経回路を模倣したニューラルネットワークを用いて、大量のデータを学習し、複雑なパターンを抽出する技術です。この技術の進歩により、生成AIは飛躍的な性能向上を遂げ、私たちの生活に大きな影響を与え始めています。

今回は、そんな生成AIがどのように生まれたのかのこれまでの歴史と、現在、未来の展望を解説していきます。
また、最後にはビーウィズでの生成AIの活用シーンを紹介します。

第1章：AIの誕生と初期の研究

●AIの誕生
生成AIの歴史は、1950年にアラン・チューリングが提唱した「チューリングテスト」にまで遡ります。チューリングテストは、機械が人間と区別がつかないレベルの会話ができるかどうかを判定するテストで、AIの知性の基準として広く知られています。
これは、人間がコンピュータと会話し、それが人間かどうか見分けられない場合、そのコンピュータは「考える」と言える、という考え方です。

●初期の研究
チューリングのアイデアをきっかけに、世界中の研究者たちがAIの研究を始めました。初期のAI研究では、チェスや将棋といったゲームで人間に勝つプログラムなどが開発されました。しかし、当時のコンピュータの性能は限られており、AIの能力はまだまだ発展途上でした。

第2章：冬の時代とニューラルネットワークの登場

●冬の時代
1970年代から1980年代にかけて、AI研究は一度冬の時代を迎えます。当時のコンピュータでは、複雑な問題を解くには計算時間がかかりすぎたり、期待通りの結果が出なかったりすることが多く、AI研究に対する期待は大きく後退しました。

●ニューラルネットワークの登場
しかし、1980年代後半から、ニューラルネットワークと呼ばれる新しい技術が登場し、AI研究は再び活気を取り戻します。ニューラルネットワークは、人間の脳の神経回路を模倣したもので、大量のデータを学習することで、複雑なパターンを認識したり、予測したりすることが可能になりましたが、計算コストの問題や学習データの不足などにより、大きな進展は見られませんでした。

第3章：ディープラーニングの革命：生成AIの幕開け

●ディープラーニングの登場
2000年代に入ると、コンピュータの性能が飛躍的に向上し、ディープラーニングと呼ばれる技術が誕生しました。ディープラーニングは、ニューラルネットワークをより深く、複雑にしたもので、画像認識、音声認識、自然言語処理など、様々な分野で高い精度を実現しました。そして、このディープラーニングが、生成AIの誕生を後押ししたのです。

●ChatGPT登場前の生成AI
ChatGPTのような大規模言語モデルが注目を集める以前から、生成AIは様々な形で研究開発されてきました。
特に、画像認識分野でのディープラーニングの進展が、生成モデルの開発を大きく後押ししました。

・GAN（Generative Adversarial Networks）
2つのニューラルネットワーク（生成器と識別器）が互いに競い合いながら、より高品質な画像を生成するモデル
・VAE（Variational Autoencoder）
データの潜在表現を学習し、その潜在表現から新しいデータを生成するモデル。
これらのモデルは、画像生成において画期的な成果を上げましたが、自然言語処理分野では、まだ十分な成果を上げていませんでした。

●自然言語処理における生成モデルの黎明期
自然言語処理分野では、Seq2Seqモデルなどが提案され、機械翻訳や文章要約などのタスクに適用されました。しかし、これらのモデルは、長距離の依存関係を捉えることが難しく、生成される文章の品質が安定しないという課題がありました。
※長距離の依存関係を捉える　とは
遠い位置にある文章同士に何らかの関係性があるかどうかを判断できる能力のこと。
例えば、このブログの初めの方の文章と最後の方の文章に関係があるかどうかを判断できるかどうかということ。

●Transformerの登場とGPTの誕生
2017年に発表されたTransformerは、自然言語処理の分野に革命をもたらしました。Transformerは、Attentionメカニズムという仕組みを用いて、文章中の任意の単語同士の関係を効率的に計算することができます。この特徴により、Transformerは長距離の依存関係を捉えやすくなり、より自然な文章を生成できるようになりました。
このTransformer をベースに開発されたのが、ChatGPTの元になっている、GPT（Generative Pre-trained Transformer）機構です。GPT機構は、大量のテキストデータを学習することで、広範な知識と表現能力を獲得し、自然な文章生成が可能となりました。

第4章：ChatGPTの登場と生成AIの進化

●ChatGPTの登場
2022年に公開されたChatGPTは、その自然な対話能力で世界を驚かせました。ChatGPTは、OpenAIが開発したGPT-3.5をベースにしており、大量のテキストデータを学習することで、人間と自然な会話ができるようになりました。ChatGPTの登場は、生成AIが実用的なレベルに達したことを示す重要なマイルストーンとなりました。

●最新の生成AI
ChatGPTの成功を受けて、多くの企業が生成AIの開発に力を入れるようになり、日々新しいモデルが登場しています。
その一部を以下に紹介します。

・対話型生成AI
GPT-4o：OpenAIが開発したChatGPTの後継でGPTシリーズの最新モデル。文脈理解力が高く、創造的なテキスト生成が得意。さまざまなタスクに対応できる。
Gemini：Googleが開発したモデル。複数のデータを同時に処理できる、マルチモーダルな能力に優れ、画像や音声も処理可能。複雑な問題解決能力が高い。
Claude：Anthropicが開発したモデル。安全性を重視した設計で、有害な情報の生成を抑止するといわれている。自然で洗練されたテキスト生成が可能。

・画像生成AI
Stable Diffusion: テキストの指示文から高品質な画像を生成できるモデルとして、特に注目を集めています。アート、デザイン、ゲームなど、様々な分野で活用されています。
Midjourney: Stable Diffusionと同様に、テキストの指示文から画像を生成しますが、より芸術的な表現を得意としています。
DALL-E 2: OpenAIが開発したモデルで、テキストからリアルな画像やアート作品を生成することができます。

・音声生成AI
MusicLM: Googleが開発したモデルで、テキストの説明から高品質な音楽を生成することができます。
VALL-E: Microsoftが開発したモデルで、特定の人物の声を模倣して音声を作成できます。

・動画生成AI
Runway Gen-2: テキストから動画を生成できるモデルで、まだ開発段階ですが、今後の発展が期待されています。

第5章：生成AIの活用と注意点

●生成AIの活用
先ほど一覧で挙げた生成AIモデルはビジネスシーンにおいて様々な形で活用されるようになってきました。
以下に、具体的な活用シーンをいくつかご紹介します。

1. コンテンツ生成
・文章生成:
広告コピー、プレスリリース、商品説明など、様々な種類の文章を自動生成。多言語対応により、グローバルな展開を加速。
・画像生成:
商品画像、デザイン素材、イラストなど、高品質な画像を短時間で生成。マーケティング素材の制作コスト削減に貢献。

2. 業務効率化
・カスタマーサポート:
チャットボットによる顧客対応の自動化。問い合わせ内容の理解と回答の生成を迅速化。オペレーターの負担軽減。
・データ分析:
大量のデータを分析し、有用な情報を抽出。ビジネス課題の解決に繋がるインサイトを可視化。
・プログラミング:
コードの自動生成、デバッグ支援。開発効率の向上と人的ミスの削減。

●生成AIを活用する際の課題や注意点
生成AIは、ビジネスに大きな変革をもたらす可能性を秘めていますが、その一方で、以下のような課題や注意すべき点もあります。

・ハルシネーション:
生成AIは、存在しない事実や情報を生成してしまうことがあります。特に専門知識が必要な分野では、生成された情報を鵜呑みにせず、必ず事実確認を行う必要があります。
・バイアス:
学習データに含まれるバイアスが生成結果に反映される可能性があります。
・著作権:
生成AIで作成したコンテンツが、既存の著作物を侵害している可能性があります。著作権法に違反しないよう、注意が必要です。
・倫理的な問題:
生成AIの利用は、倫理的な問題を孕んでいます。例えば、ディープフェイクによる虚偽情報の拡散や、差別的なコンテンツの生成などが挙げられます。

第6章：生成AIの今後の展望

生成AIの今後の進化の方向性として、以下のような点が考えられます。

・多様なデータへの対応:
テキストだけでなく、画像、音声、動画など、より多様な形式のデータを学習し、より高度なコンテンツを生成できるようになるでしょう。
・より高度な理解力:
文脈やニュアンスを深く理解し、より人間らしい自然な文章や会話ができるようになるでしょう。
・専門知識の習得:
特定の分野の専門知識を深く学習し、高度な専門的な文章やコードを生成できるようになるでしょう。
・創造性の向上:
新しいアイデアや概念を生成し、芸術やデザインなどの分野で新たな表現を生み出すことができるようになるでしょう。

■ビーウィズでの生成AIの活用

1.会話要約機能
OmniaLINKのCRMシステム『bowline』に生成AIを用いた会話の要約機能を搭載しています。

○生成AIによる会話要約
https://www.bewith.net/service/omnialink/callcenter/product/summary/

Omnia LINKの音声認識機能でテキスト化したデータを連携。要約の精度は90％以上。応対内容を箇条書きで要約します。

要約は通話終了後、約 30 秒でCRMシステムに反映されます。要約の精度は約 90％以上となっており、オペレーターは要約された内容を確認し、必要に応じて加筆修正が可能です。

2.RAGを用いた、社内文章検索

・ビーウィズでの悩み
弊社では、グループウェアを使って、全社への周知や、規約や規定などの管理を行っています。
会社の規模が大きくなっていくにつれて、全社への周知も共有資料も多くなっていって、
『何がどこにあるのか・いつ情報がアップデートされたかわからない』
という悩みがありました。
そこで、生成AIの活用方法の一つである、「RAG」を使うことにしました。

・RAGとは
生成AIが生成するテキストの質を向上させるための技術。
RAGでは、生成AIが回答を生成する前に、外部の知識ベース（例えば、Wikipediaや企業の内部データベースなど）から関連性の高い情報を検索し、その情報を元に回答を生成します。
今回の場合であれば、外部の知識ベースにあたるのが、ビーウィズ社内情報になります。

以下は、実際の検索画面です。

①知りたいことを検索②登録された社内情報を元に要約生成③①で入力された検索文章の検索結果を表示

こちらに関してはリリースしたばかりなので、今後の効果検証が楽しみなところですが、社内からは非常に便利になったと好評です。

日々、進化が進む生成AI。これからの時代、当たり前のように業務に組み込まれていくでしょう。生成AIで注意するべき点をしっかりと把握しながら、少しづつ使いこなしていきましょう。

ビーウィズが提供するクラウドコンタクトセンターシステム（クラウドPBX）『Omnia LINK（オムニアリンク）』は、コールセンター事業社であるビーウィズの現場ノウハウから生まれたコールセンターシステムです。

高精度な音声認識による「リアルタイムテキスト化」をはじめ、コールセンター向けの数々の先進機能を搭載しており、オペレーターとSVの業務を大幅に効率化し、コールセンターの生産性と品質の向上、在宅コールセンターの推進など様々な効果をもたらす、使いやすさにこだわったシステムです。

Omnia LINK（オムニアリンク）に関する詳しい資料は、こちらからご覧いただけます。
https://www.bewith.net/gemba-driven/download/entry-126.html