paint-brush
Claude 2 AI は PDF の操作にどの程度優れていますか? - 確認してみましょう@jorgev
3,777 測定値
3,777 測定値

Claude 2 AI は PDF の操作にどの程度優れていますか? - 確認してみましょう

Jorge Villegas5m2023/11/03
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

AI アシスタントの Claude 2 が PDF 関連のタスクをどの程度うまく処理できるかを見てみましょう。
featured image - Claude 2 AI は PDF の操作にどの程度優れていますか? - 確認してみましょう
Jorge Villegas HackerNoon profile picture
0-item

PDF (Portable Document Format) ファイルは、デジタル世界では至る所に存在します。私たちはドキュメントの共有からオンラインでのフォームへの記入まで、あらゆる用途にこれらを使用しています。しかし、PDF の操作は必ずしも簡単ではありません。そこで人工知能の登場です。


AIアシスタント Claude 2 が PDF 関連のタスクをどの程度うまく処理できるか見ていきます。 Anthropic によって作成された Claude 2 は、役に立ち、無害で、正直になるように設計されています。この重要なファイル形式を扱う際に、この理想を満たしているかどうかを確認するために、いくつかの一般的な PDF アクションを実行してみます。


AI アシスタントを現実世界のシナリオでテストすることが不可欠です。 AI が私たちの生活の大きな部分を占めるようになった今、AI が何が優れていて、どこが不足しているのかを知ることが非常に重要です。クロードは、おそらく GPT-4 のようなモデルと同等の有力な候補として浮上しているようです。これらのテクノロジーを理解しているユーザーが、導入を成功させる上で重要な役割を果たすと確信しています。


Claude 2 で PDF の操作が容易になるかどうか、あるいはそのスキルにはまだ改善の必要があるかどうかを探ってみましょう。結果はあなたを驚かせるかもしれません。

クロード2のPDF能力

Claude 2 は、PDF ファイルを分析して操作する機能が組み込まれている点で、他の AI アシスタントより際立っています。 Anthropic の研究者は、機械学習技術を使用して PDF ドキュメントの構造を解析して理解できるように Claude 2 を設計しました。これにより、PDF を理解するのが難しい他のチャットボットと比較して、Claude 2 には PDF の処理において本質的な利点が与えられます。専用の PDF アナライザー コンポーネントを備えた最初のAI モデルの 1 つである Claude 2 は、PDF 関連のタスクに優れた独自の立場にあります。このブログ投稿では、その特殊なエンジニアリングが、このユビキタスなドキュメント形式の操作における現実世界の熟練度にどのように変換されるかを検証します。私たちのテストでは、Claude 2 が PDF の操作に関して有益かつ無害で誠実な支援を提供するという約束を果たすことができるかどうかを明らかにします。また、最大ファイルサイズは 10MB であることに注意してください。

PDF のテスト

チュートリアルのために、Python チュートリアルPDFを使用し、そこから何が得られるかを確認します。


まずは、文書に記載されていることがわかっている質問から始めましょう。 「フォーマットされた文字列リテラルとは何ですか?」というプロンプトを表示します。答えも PDF のかなり奥深いところにあるので、ドキュメントの最初のテキストには答えられるが、最後には答えられないとしたら興味深いでしょう。

結果は次のとおりです。答えはPDFに非常に簡潔に記載されています。


直接引用

次に、ファイルから直接引用符を取得してみましょう。プロンプトは「関数アノテーションとは何ですか?」になります。文書から引用してください。」


結果は次のとおりです。


これは直接の引用であることが確認できます。コードスニペットを表示することもできました。

財務書類

次に、財務書類を試してみます。 Microsoft の最新の四半期レポートを追加します。 「資料の通りです。」と促します。この四半期の Microsoft の総収益はいくらですか?」これが結果のスクリーンショットです。

クロードが私たちが要求した収益情報を提供したことがわかり、事実確認の結果、その正確性を自信を持って検証できます。クロードは、この情報が掲載されている正確なページも特定しましたが、それも正しいです。


次に、「昨年からの収益の変化率は何パーセントですか?」と尋ねました。何らかの分析ができるかどうかを確認したかったのです。

驚いたことに、それを理解することができました。結果のページ番号も表示されました。このデータが文書にあることすら知りませんでした。昨年の第 3 四半期の収益と今年の収益を計算して、その差のパーセンテージを計算するのではないかと考えました。

代替案

クロードは現在、実行できるリクエストの数に制限を課しており、アクセス待ちリストが作成される場合もあります。これらの制約を念頭に置いて、いくつかの代替オプションを検討する価値があります。

困惑

Perplexity AI は、ドキュメントを含む NLP に最適な AI ツールです。ユーザーはPDF ファイルをプレーンテキスト、コード、または PDF 形式でアップロードでき、Perplexity はファイルの内容を利用して回答を作成します。短いファイルの場合、ドキュメント全体が言語モデルによって分析されます。 Perplexity は、長い PDF を手動でトピック領域に分割し、創造的な執筆のために GPT-4 にフィードすることもできます。 Perplexity は、PDF を分析して文書から直接質問に回答し、回答のソース引用を提供し、研究論文を比較対照し、クエリに基づいて関連文書や論文を検索し、データを分析してさまざまなソースから洞察を生成し、データを視覚化して作成することができます。さまざまなソースからグラフィックを取得し、テキストをある言語から別の言語に翻訳します。無料アカウントを使用している場合は、一定数のリクエストしか実行できません。無制限のファイルアップロードをご希望の場合は、月額 20 ドルで購読する必要があります。

チャットGPT

ChatGPT は、ChatGPT Plus 加入者向けの最新アップデートの新機能として PDF 分析を発表しました。この機能を使用すると、ユーザーは PDF ファイルやその他のドキュメントをアップロードし、ChatGPT で分析できるようになります。チャットボットは、概要やさまざまなデータ ポイントを抽出したり、そのデータに基づいてグラフやチャートを作成したりすることもできます。この機能は現在ベータ版であり、ChatGPT Plus メンバーが利用できます。このアップデートには自動ツール切り替えも含まれており、これにより ChatGPT はコンテキストに基づいてユーザーが何を望んでいるのかを推測できるようになります。この新機能は、2023 年 10 月から ChatGPT Plus の顧客が利用できるようになりました。

オープンソース

最後になりますが、オープンソース ソリューションは魅力的な代替手段を提供します。 PDF 分析には、Langchain や Python データ サイエンスなどのさまざまなテクノロジを利用するオープンソース ツールが多数用意されており、ベクトル データベースと統合されることもよくあります。 Pgvector のようなベクター データベース ソリューションは、Pinecone のような商用サービスと比較して、はるかにコスト効率の高いオプションを提供できることは注目に値します。それにもかかわらず、GitHub などのプラットフォーム上のオープンソース コミュニティは、PDF 分析のニーズを満たす、アクセス可能でカスタマイズ可能なモデルを豊富に提供しています。

結論

Claude の PDF アナライザーを初めてテストしたとき、私は本当に興奮しました。初期の結果は素晴らしく見えました。しかし、AI モデルがどうなるかはご存知でしょう。AI モデルは完璧ではありません。確かにあちこちに間違いがありました。初めてクロードと PDF についてチャットし始めたとき、かなり頻繁に混乱しました。しかし、私はそれがどれほど良くなっているのかに常に感銘を受けてきました。以前に比べて、たとえあったとしても、エラーは大幅に減少しています。


時間の経過とともにこのような改善が見られるのは非常に期待できます。私はまだ人間の専門知識を置き換える準備ができているとは言いません。当然、物事を再確認する必要があります。今後も潜在的な問題に注意を払う必要があります。しかし、私はクロードの PDF 能力がどこに向かっているのかについては楽観的です。これは非常に便利なツールになる可能性があります。もちろん、選択肢はたくさんありますが、これはそのうちの素晴らしいものです。