paint-brush
あなたの筆跡には指紋がある。最先端の AI モデルがそれを検出できる@authoring
新しい歴史

あなたの筆跡には指紋がある。最先端の AI モデルがそれを検出できる

Authoring5m2025/03/07
Read on Terminal Reader

長すぎる; 読むには

この研究では、自然言語パーサーの文法構造を使用した新しい著者検出方法を紹介します。ツリーベースの構文パターンを分析することで、このアプローチは従来の文体測定法よりも優れており、本物の著者と AI によって生成されたテキストや模倣されたテキストを区別する堅牢な方法を提供します。
featured image - あなたの筆跡には指紋がある。最先端の AI モデルがそれを検出できる
Authoring HackerNoon profile picture
0-item

著者:

(1)トッド・K・ムーン、ユタ州立大学電気・コンピュータ工学部、ユタ州ローガン

(2)ジェイコブ・H・ガンサー、ユタ州立大学電気・コンピュータ工学部、ユタ州ローガン。

リンク一覧

要約と1 はじめにと背景

2 統計解析と抽出された特徴

3 解析ツリーの機能

4 分類子

5次元削減

6 フェデラリスト論文集

6.1 サンディトン

7 結論、考察、今後の課題

A. 統計解析の簡単な紹介

B. 次元削減: 数学的な詳細

参考文献

抽象的な

長年にわたり、文脈に関係のない単語の出現率など、テキストの統計的特性に基づいてテキストの著者を検出することに関心が寄せられてきました。以前の研究では、これらの手法は、たとえば、The Federalist Papers 全体の著者を決定するために使用されました。このような方法は、現代では偽の著者や AI による著者を検出するために役立つ可能性があります。統計的自然言語パーサーの進歩により、文法構造を使用して著者を検出する可能性が導入されました。この論文では、統計的自然言語パーサーを使用して抽出された文法構造情報を使用して著者を検出する新しい可能性を探ります。この論文では、概念実証を提供し、以前の著者検出研究でテストケースとして使用された一連の「証明テキスト」、The Federalist Papers と Sanditon で文法構造に基づく著者分類をテストします。統計的自然言語パーサーから抽出されたいくつかの特徴が調査されました。任意のレベルの特定の深さのすべてのサブツリー、特定の深さのルート付きサブツリー、品詞、および構文解析ツリーのレベル別の品詞です。特徴をより低次元の空間に投影することが有用であることが判明しました。これらの文書に対する統計実験により、統計パーサーからの情報が実際に著者の区別に役立つことが実証されました。

1 はじめにと背景

統計的手法を用いて候補著者の例に基づいてテキストの著者を特定することに関連した努力が、長年にわたってなされてきた。これは「スタイロメトリー」または「著者同定」と呼ばれることもある。文書の統計的分析は、単語長の統計を使用してパウロの書簡の著者を決定できると提案した 1851 年の Augustus de Morgan [1, p. 282]、[2, p. 166] にまで遡る。スタイロメトリーは、1901 年にはすでにシェイクスピアの著者を調査するために採用されていた [3]。それ以来、さまざまな文学研究で採用されており (例: [4, 5, 6] を参照)、その中には著者が不明であった 12 編の The Federalist Papers [7] (ここで再検討) や、Jane Austen の未完の小説 (これもここで再検討) が含まれる。情報理論的手法も最近では使用されている [8]。以前の文体測定法の研究は、「非文脈語」、つまりテキストの主な意味を伝えないが、テキストの背景で構造と流れを提供する単語に基づいていました。著者はさまざまなトピックを取り上げることがあり、特定の特徴的な単語が必ずしも著者を明らかにするわけではないため、非文脈語は少なくとももっともらしいものです。非文脈語の研究では、最も一般的な非文脈語のセットが選択され [2]、文書は単語数、または単語数と文書の長さの比率で表されます。統計的手法のレビューは [9] にあります。バリエーションとして、非文脈語パターンの数と他の単語パターンの数の比率のセットも使用されます [10]。著者の語彙サイズと文書の長さに基づく統計分析、つまり「語彙の豊富さ」も研究されています [11]。その他の関連研究については、[12、13、14、15] を参照してください。

最近の論文 [16] では、さまざまな特徴セットの有効性を検討しています。そこで検討されている特徴セットには、代名詞の頻度を含むベクトル、機能語 (冠詞、代名詞、助詞、罵り言葉)、品詞 (POS)、最も一般的な単語、統語的特徴 (名詞句、動詞句など)、時制 (現在形または過去形の使用など)、態 (能動態または受動態) が含まれます。[16] では、特徴ベクトルはヒストグラムの組み合わせから形成され、次に主成分分析 [17] の 2 段階プロセスを使用して次元が削減され、その後線形判別分析 (LDA) を使用して次元が削減されます。LDA では、クラスター内の散布行列は特異であるため (利用可能なトレーニング ベクトルの数に比べて特徴ベクトルの次元が高いため)、散布行列は正規化されます。これをテストするために、著者らはさまざまな正規化パラメーターを検討し、最高のパフォーマンスが得られるパラメーターを選択します。


より最近の研究 [18] では、[15] の調査について言及しており、著者分野で一般的に使用されている特徴は単語と文字の n-gram です。前述のように、統計的手法がトピック関連のパターンによって偏るリスクがあります。[18] が指摘しているように、「著者分類器 (一見優れているように見えても) は、ドメイン依存の特徴が使用されている場合、意図せずにトピックの識別を実行してしまう可能性があります。... これを避けるために、研究者は機能語や統語的特徴など、明らかにトピックに依存しない特徴に範囲を限定する場合があります。」ここで紹介する研究は後者のカテゴリに分類され、テキストから統計的に抽出された文法構造を使用しています。これらは偽装が困難であるように思われます。他の最近の研究 [19, 20] を調べると、著者識別方法への関心は継続していますが、ここで使用されている文法構造を使用しているものはなく、従来の n-gram に依存する傾向があります。


この研究では、自然言語解析ツール [21] の構文木からツリー情報を使用して特徴ベクトルが取得されます。これらの特徴は、[16] で考慮された特徴には含まれていませんでした。文法構造は、単語のクラスの単純なカウントよりも微妙であるため、なりすましやトピックバイアスの影響を受けにくい可能性があります。これは、模倣しようとする著者が複雑な使用パターンを一貫して追跡できる可能性は低く、特徴にはドキュメントからの単語が含まれないためです。検討したテストデータでは、ツリーベースの特徴が POS 特徴よりも優れていることがわかりました。


このようにして得られた特徴ベクトルは非常に高次元になる可能性があるため、ここでも次元削減が実行されます。ただし、クラスター内散布行列の特異性に対処するために、一般化された SVD アプローチが使用され、正規化パラメータを選択する必要がなくなります。


この論文では、著者を区別するためのこれらのツリーベースの特徴を、これまでに調査された文書である The Federalist Papers と Sanditon に適用して概念実証します。解析された情報から取得されたいくつかの特徴ベクトルについて、著者による分類機能が調査されます。


この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています