paint-brush
AI アバターとの没入型 VR 会話: ChatGPT、Google STT、および AWS Polly の統合@neighborlynook
4,553 測定値
4,553 測定値

AI アバターとの没入型 VR 会話: ChatGPT、Google STT、および AWS Polly の統合

Matthew Zygowicz5m2023/04/19
Read on Terminal Reader

長すぎる; 読むには

ChatGPT は、VR 体験で Google Speech-to-Text (STT) と Amazon Web Services (AWS) Polly を使用します。その結果、ChatGPT の応答によって駆動され、音声入出力機能で強化された AI 搭載の Ready Player Me アバターとの真に没入型でインタラクティブな会話が実現します。
featured image - AI アバターとの没入型 VR 会話: ChatGPT、Google STT、および AWS Polly の統合
Matthew Zygowicz HackerNoon profile picture
0-item


バーチャル リアリティ (VR) は、私たちがテクノロジーとやり取りする方法に新たなフロンティアを切り開いてきました。私は最近、ChatGPTGoogle Speech-to-Text (STT)、Amazon Web Services (AWS) Polly を VR 体験に統合する技術デモで、これらの境界をさらに押し広げる機会を得ました。


結果?


ChatGPT の応答によって駆動され、音声入出力機能で強化された AI 搭載の Ready Player Me アバターとの真に没入型でインタラクティブな会話。


ゲームループ





この技術デモの背後にあるコンセプトは、ChatGPT を利用して、ユーザーが AI アバターとリアルな会話ができる仮想ルームを作成することでした。


エクスペリエンスを次のレベルに引き上げるために、音声入力用に Google STT を統合しました。これにより、ユーザーの音声がテキストに書き起こされます。このテキストは、処理のためにマイクロサービスに送信され、関連する応答を生成するために ChatGPT に転送されます。応答が生成されると、AWS Polly を使用してテキストから音声への変換 (TTS) が行われ、出力がアバターに返されて音声処理が行われるため、ほぼシームレスで動的な会話が実現します。



アニメーションで話すデジタルアバター




この技術デモの際立った機能の 1 つは、リップ シンクがオンになっている Ready Player Me アバターの統合です。これは、オーディオが再生されると、アバターの口がスピーチと同期して動き、非常にリアルでインタラクティブな会話体験を生み出すことを意味します。これらのアバターは、AI の視覚的表現として機能し、会話に没入感とパーソナライズのレイヤーを追加します。


会話を魅力的にするために、ChatGPT 用に 3 つの入力済みプロンプト シナリオを作成しました。


最初のシナリオでは、AI は財務担当者の役割を果たし、財務と投資の管理に関するアドバイスを提供します。



2 番目のシナリオでは、AI が精神科医として機能し、仮想療法とカウンセリングを提供します。


最後に、3 番目のシナリオでは、AI が架空の商人のペルソナになり、仮想のギアやアイテムを販売します。



これらのシナリオは、金融、メンタルヘルス、エンターテイメントなど、さまざまな分野でのこのテクノロジの潜在的な使用例を垣間見せます。


十分に語られていませんが、迅速なエンジニアリングはそれ自体が才能です。コードでわかるように、コンテキスト シーンを設定し、アバターがキャラクターを失わないようにすることは、複雑になる可能性があります。基本的に、モデルが台本を壊さず、現実的なままであることを確認する必要があります。上記の完全なビデオから、ファンタジーの商人が時々性格を壊し、感情を声に出しながら「まあ、まあ、まあ」と言って、ほとんど神経質なダニを繰り返し表示することがわかります.


没入型 VR 会話のための現実的な環境の作成

この技術デモでは、主にアート ディレクションに既製のアニメーションとモデルを使用したことに注意してください。ただし、本格的なアプリケーションの場合、ポジティブ/ネガティブ アニメーション トーンのセンチメント分析を備えた会話アニメーションや、処理時間中のフィラー アニメーションなど、リアルなアニメーションに投資することで、AI の対話の信憑性と自然性を高めることができます。これにより、没入型の体験がさらに向上し、人間のような会話に近づけることができます。


真に没入型の VR 会話体験を作成する際の課題の 1 つは、私たちの感覚の限界です。仮想環境では、私たちは通常、世界を認識して対話するために視覚と音に依存しています。これらは関与している2つの感覚であるため、シナリオの何かがおかしいと思われる場合、あなたは非常に敏感です.仮想世界をよりリアルに感じさせ、環境の非現実的な性質から気をそらすには、現実世界の環境を模倣した信頼できる環境を作成することが重要です。


VR での臨場感を生み出すには、ビジュアルが重要な役割を果たします。現実的な 3D モデルを使用することも役立つかもしれませんが、テクスチャ、照明、およびアニメーションを使用すると、様式化されたグラフィックであっても現実世界のように見える環境を作成できます。たとえば、AI アバターが仮想オフィスに配置されている場合、正確なオフィス家具、装飾、および照明を使用することで、ユーザーが共感できるなじみのある環境を作成し、会話をより本物に感じさせることができます。


サウンドは、VR 会話への没入感を高めるもう 1 つの重要な要素です。ユーザーの位置と頭の動きに基づいてサウンドの方向と強度が変化する空間オーディオは、臨場感を大幅に高めることができます。


たとえば、アバターがいる方向から AI アバターの声が聞こえると、会話のリアルさが増します。しかし、アバターの音よりもさらに重要なのは、日常のホワイト ノイズ音です。アシスタントが書類をゴロゴロ鳴らしている音、人々が外でシャッフルしている音、電話などの音。これらのホワイト ノイズを生成する音は、計算思考を覆い隠すのに必要であり、ユーザーの注意をそらし、シュールな没入感を維持するのに役立ちます。


ビデオインタラクションのリプレイを見ると、それらはすべてオフに見えます。この環境は、デバッグ オーバーレイ用に特別に作成されており、背景のホワイト ノイズはすべて存在しませんでした。リアルな体験の作成に集中するとしたら、重点分野は次のとおりです。アニメーション、サウンド デザイン、セット デザイン、プロンプト エンジニアリング。これは重要な順序です。私の考えでは、迅速なエンジニアリングは最後になります。あなたが AI と話しているときは、AI が次に何を言うべきかを予測するのにどれだけ優れているかを驚かせることがあります。 -時限アニメーション。


おわりに ~未来への挑戦~

この技術デモは、ChatGPT、Google STT、および AWS Polly を VR 体験に統合することの大きな可能性を示していますが、重要な倫理的考慮事項も提起しています。ユーザー データが安全かつ責任を持って処理され、AI モデルが公正かつ偏りのない方法でトレーニングされることを保証することは、そのようなテクノロジの開発と展開において優先されるべきです。これらのインタラクションがより広く利用可能になるにつれて、シミュレートされた仮想人間を作成して、自発的なユーザーから個人情報をだまし取ることは、Black Mirror のエピソードから何かのように思えるかもしれませんが、すぐに可能性の領域に入りつつあります.


結論として、この技術デモは、AI との VR インタラクションの境界を打ち破る大きな前進を表しています。 ChatGPT、Google STT、AWS Polly の統合により、没入型でダイナミックな会話が可能になり、教育、カスタマー サービス、エンターテイメントなどの分野で刺激的な可能性への道が開かれます。アニメーションと AI テクノロジのさらなる進歩により、AI アバターとの仮想会話がより自然で、魅力的で、主流になる未来が期待できます。このテクノロジーの可能性は非常に大きく、仮想世界での AI とのやり取りがどのように進化し、変化していくのか、非常に楽しみです。


リンク:

Sigmund マイクロサービスの Github: https://github.com/goldsziggy/sigmund


マイクロサービス用の Docker ファイル:

 docker run -it -p 8080:8080 --env-file .env matthewzygowicz/ms-sigmund


十分な関心が集まったら、すべてのオープンソース アセットを使用してコードの Unity 部分を書き直して、それもオープンソースにすることができます。