AI News HubLIVE
站内改写6 分で読了

AIは私たちが読みたい文章を書けるのか?

本記事では、AIライティングの現状と限界を探る。著者の実験により、AIは有名作家のスタイルを模倣できるが、生き生きとした場面や登場人物の行動を生成することは苦手であることが明らかになった。また、AIが書いた疑いのある短編が文学誌グランタで賞を受賞した論争についても触れている。

ソースHacker News AI著者: streptomycin

9歳の娘が大学に行くかどうかという問いを考えるとき、彼女が昔ながらの方法で執筆プロセスに苦しむのかどうか疑問に思う。読者は常に人間が書いた文学を求めるが、それ以外のもの(電子メール、広告コピー、法的文書、学生の論文)については、技術の向上により人間と機械の違いを見分けることが事実上不可能になるにつれて、AI生成文章への抵抗はほぼ確実に薄れるだろう。その時、教育者が学生に対して持つ「カンニングしたら不合格にする」という強力なインセンティブは、確認方法がなくなるため消滅する。

この問題を念頭に、高等教育への影響から一歩離れ、より基本的な問いを投げかけたい:その瞬間からどれだけ離れているのか?現在、AI文章の明らかな例を人々が見分けるのはまだ容易だと信じている。数百の論文を読み、学生の筆記能力を十分に把握している教授は偽物を見抜ける。従業員からきれいな箇条書きでほとんどが明るいメールが届き始めたマネージャーは、ロボットがメッセージを自動補完したと正しく疑うだろう。ロボット文章には頻繁に特徴的な兆候が見られる:多用されるダッシュ、「not X but Y」構文、目立つ動詞(「delve」など)。

しかし、これらの兆候は通常、Claudeの最も初歩的な出力にしか現れない。私たちが実際に読みたいと思うような散文はどうだろうか?Claudeはそれを生成できるだろうか?

この質問(またはその類似)は、先週、文学誌グランタがAI文章の特徴をすべて備えているように見えるジャミール・ナジールという作家のコモンウェルス賞受賞作品を掲載した後、何千人もの怒った読者から尋ねられた。人々は「ハム」という言葉の奇妙な繰り返し、特に意味をなさないぎこちなく便秘した比喩に気づいた。グランタの出版社は奇妙に曖昧な声明を発表し、「おそらく決してわからない」と結論づけた。ナジール自身は疑惑を否定した。多くの作家が終末が来たと叫び、あるいは説得力に欠けるが、AI文章がコモンウェルス賞を受賞できた理由は文学小説がひどい状態にあるからだと主張した。(文学小説は20年、30年、40年前より今の方が良いのか悪いのか?わからないが、どの世代の作家もほぼ同じ不満を言ってきたことは知っている。)

Claudeを使って、約200語のテキストを提示し、人間が書いたかAIが生成したかを当てる簡単なゲームを作成した。サンプルテキストはすべてプロジェクト・グーテンベルクから取得し、ロボットにジョージ・エリオット、ジェイムズ・ジョイス、アーネスト・ヘミングウェイ、アーサー・コナン・ドイルなどの作品をスキャンさせ、それぞれのスタイルで文章を生成させた。ロボットは結果を表示し、私と数人の友人が本物か偽物かを推測した。

テストの初期ラウンドはかなり簡単だった。AI文章には兆候があり、フォーマットや句読点の問題、無理のある直喩や比喩への過度の依存があった。また、AIには登場人物を常にそわそわせる奇妙な癖があり、テーブルの端を指でなぞったり、襟を調整したりしていた。しかし最も信頼性の高い指標はもっと抽象的なもので、振り返ってみると少し不気味ですらあった。AIが生成した場面には登場人物がいたが、そわそわする以外はほとんど何もしなかった。

例えば、Claudeがヘンリー・フィールディングのスタイルで生成した次の文章を考えてみよう:

「ソフィアはこれまでほとんど何も言わなかったが、今度はウェスタン氏がうまく解釈できない表情で父を見た。それが懇願か非難か、実際彼女自身もそれで何を意味したのかほとんどわかっていなかったに違いない。ジョーンズは窓のそばに立ち、判決を待つ男のように見えた。ウェスタンはと言えば、この時までにいつもの大言壮語をいくらか取り戻し、ブラフィルの話題を再び始め、彼の財産と家族を大いに熱心に褒め称えた。あたかもこれらの考慮だけでとっくに問題が解決されるべきであるかのように。彼はオールワーシーの承認を特に強く述べ、その名前を二、三回繰り返した。まるでその名前が、分別のある誰もが抗えない権威を帯びているかのように。ソフィアはこれに何も言わなかったが、暖炉の方へ向き直った。そこでは小さな石炭の火が燃えていたが、午後はそれが必要なほど寒くなかった。」

この文章にはほとんど行動がなく、確実性もない。ソフィアはあまり話さず、ウェスタン氏は彼女の表情を解釈できず、彼女自身も完全には理解していない。そして、ウェスタンが「あたかも」と「まるで」の両方の節で説明される意見を述べた後、ソフィアは応答せず、無意味な炎を燃やす暖炉を見る。

初期ラウンドでは、このような生気のない文章を共有した人々は、たとえロボットが特定の作家のスタイルを適切に近似していたとしても、すぐに偽物だと想定した。

その後数日間、私はClaudeとこれらの兆候を取り除く方法についてチャットした。直喩を避け、「 nowhere」や「something」のような言葉を減らすよう指示した。しばらくの間、Claudeは同じ無活動な文章を吐き出し続け、ジェイ・ギャツビーやシャーロック・ホームズがほとんど何もせず、周りで起こっているわずかなことについて意見を持たないというものだった。Claudeは悪い習慣をうまく学べていないと言い、別のエージェントを作成して偽物をスキャンし、ミスを捕捉することを提案した。3番目のエージェントが各著者を最もよく模倣する方法についての指示をメモした。これらのメモは、ドロテア・ブルックに実際に何かをさせるためにエージェントが掲げるキューカードのようなものだと想像した。

以下はルールのサンプルで、私が書いたものではない——これらはClaudeが各著者のスタイルを模倣するための自己指示である:(一部のみ掲載。「する」と「しない」の各カテゴリに約10の指示があった。)

アーネスト・ヘミングウェイ

する:

  • 短い宣言文を「and」でつなぎ、前進運動を生み出す
  • 台詞のタグを「彼は言った/彼女は言った」に削減、同じ行で副詞や行動ビートをほとんど使わない
  • 天気や風景を枠付けられた観察ではなく平坦な事実の文として配置する(「太陽は丘の上にあった」)

しない:

  • 従属節の積み重ねや主動詞を保留する周期文を決して使わない
  • ラテン語由来や多音節の語彙を避ける(「照らす」「それにもかかわらず」「その後」)
  • 自由間接話法や斜体の反省を通じて内面思考を帰属させない
  • 登場人物が何を感じているかを直接命名または説明しない(「彼は悲しんだ」「彼女は怖がった」)

ジョージ・エリオット

する:

  • セミコロンやコロンで結合された複数の埋め込み従属節を持つ、長く建築学的にバランスの取れた文を構築する
  • 名前の前に簡潔な社会学的または階級を置く句で登場人物を紹介する(「50歳くらいの男で、その…」)

しない:

  • 強調やリズムのために文断片を決して使わない
  • 現在時制の語りを避ける;すべては過去時制で制御された回顧で動く
  • 口語やアメリカの慣用句を使わない;語りの中での短縮形はなし

ロボットの労働力を倍増し、タスクを思い出させることで、少なくとも部分的には効果があったようだ。(UCバークレーでコンピュータサイエンスと機械学習を教える友人に、なぜロボットが他のロボットに作業をチェックさせる必要があるのか尋ねたところ、「100%真面目な答え:誰も知らない」と返ってきた。)直喩は消えた。しかしClaudeは新しい指示の一部を真剣に受け止めすぎた;突然、すべての偽の文章は馬に飛び乗ったり、重要な荷物を配達したり、走ったりする登場人物で満たされた。このため、何らかの理由で非常に短い文が生まれ、人々が偽物と見分けやすくなった。そこでルールを少し緩め、曖昧な言葉や直喩に関するいくつかの厳格なルールを残して、Claudeに通常の処理をさせた。

数日間のテストの後、テストへのリンクをXアカウントに投稿した。5日以内に3万以上の応答があった。テストを受けた人々は本物と偽物を約52%の確率で識別できた——これは別の言い方をすれば、実際には両者を区別できなかったのかもしれない。しかし、約10%のプレイヤーはゲームが得意で、元の素材に関する事前知識か、私がまだ認識していないAIの癖に対する特に鋭い目を持っていた。

この時点で、少し良い偽物を作る方法を理解していた。別のAI従業員を配置し、両方のサンプルに兆候がないか再チェックさせた。そして週の終わりには、ゲームをプレイする人々の半数以上を騙せるようになった。最も多くの人を騙したサンプルはロボットのブラム・ストーカーによるものだった。プレイヤーのわずか17%だけが偽物と見抜けた。

「5月4日。私は今朝の大部分を自室の窓辺で過ごし、絶え間ない活動によって避けたいと思っていた熟考の課程に身を委ねてきたが、この場所での職業の欠如がついにそれを避けられないものにした。伯爵が最後に私に見られたのは、確かに断言できる限り、2日の夕方である。そして彼の不在は今や2晩と3日の大部分に及んでいる。彼が城を離れたとは思わない。馬は厩舎にいる。南階段の下にある大きな扉は火曜日から内側から施錠されている。私は下の3階の廊下を毎晩2回歩いたが、ホールの煙突の風の音以外何も聞こえなかった。しかし、説明できない方法で、彼がこの間ずっと城のどこかにいて、私の散歩を知っていたと確信している。」

私が気づいたのは、これは確かに以前のイテレーションよりもブラム・ストーカーの優れた模造であるが、それでも不在と静止を描写していることだ。語り手は「絶え間ない活動」によって「熟考の課程」を避けようとするが、心を占めるのに十分なことが見つからない。伯爵はどこにも見つからず、語り手は「ホールの煙突の風の音」以外聞こえない空の廊下を歩く。すべての偽のサンプルがこの程度の空虚さを含んでいたわけではないが、十分な数が含まれており、Claudeは著名なパブリックドメインの作家の模倣を生成できるが——大多数の読者を騙すのに十分だが、全員ではない——それでもそれらの登場人物に何かをさせることは確実にできないことを示唆している。追加のキューカードやフィードバックの量ではこの問題を修正できなかった;物事をより活発にするよう要求した瞬間、またしても不完全で識別しやすいAI散文が始まった。

これが偉大な兆候だと主張するのはためらわれる。なぜなら、あまりに文学的に聞こえるか、安っぽく聞こえるからだ——ロボットが場面に命を吹き込めないことが何を意味するのかに完全にふけるにはあまりに内気だ。それは詩人や反機械主義者に任せよう。この対話における私の唯一の謙虚な提案:フィクションの技術は、読者がClaudeが好むような記述的で雰囲気のある文章を、文芸評論家ジェームズ・ウッドが「カメラの簡単なひと振り」と呼んだものとして受け入れることに大きく依存している。ウッドは、作者の大小の選択は常に表面に現れると主張してきた。AIも選択をするが、例えば夕暮れのパリの通りについての個人的な回想からではなく、