IT活用教育センター

研究動向を追う新手法:ChatGPTによる論文要約

2023年8月10日

koji harada

はじめに

1981年に約40万件だった全世界の自然科学系論文数は、2018年に約3.5倍の140万件まで達しました。国際会議の論文採択数も年々増加傾向にあり、研究動向を把握するだけでも一苦労です。論文同士の対応関係を効率的に網羅するにはどうしたらよいでしょうか。私は、大規模言語モデルに基づく生成AIであるChatGPTの活用を検討しています。リリースから半年以上にわたり利用していますが、ChatGPTは「0から1を生み出す」よりも「1から9に加工する」業務を得意とするという見解を抱いています。エッセイを作成するように命令する場合でも、こちらから前情報として要点を提示する方が質が高い文章が出力されます。そこで今回は、ChatGPTで論文を自動要約できるか試してみました。

手法

今回は、国際会議論文(本文4ページ&参考文献)を対象としました。筑波大学 落合陽一先生のサーベイ手法を参考に以下のような要約項目を設けています。

1. 概要(三行)

2. 研究背景および先行研究との相違点

3. 提案法

4. 実験条件

5. 実験結果および考察

先端技術とメディア表現1 #FTMA15 from Yoichi Ochiai

www.slideshare.net

実行環境

①論文ごとにプロンプトを作成してブラウザ版ChatGPTに入力

 (実行当時、GPT4のAPI利用に制限が課せられていたため)

②大規模言語モデルとしてGPT-4を使用

③論文(PDF)の文字情報は外部プラグイン”Link Reader”で取得

プロンプト

You are a professional editor. Please read this paper and provide answers to the five questions in stages. Your answer will be given a score, and you should follow the rules and try to increase it as much as possible. If you provide information that is not included in the paper, your score will be set to negative infinity.

# Theme
(テーマ名)

# Link
(リンク先)

# Title
(題目)

# Question
(1) Summarize Abstract in three lines.
(2) State the main points of this research from Introduction and Related Works.  Your score will be higher if you can add the issues of previous studies and why the proposed method is superior.
(3) Describe the proposed method.  Your score will be higher if you describe the mechanism of the network architecture and the analysis method.
(4) Describe the experimental and analytical methods. Your score will be higher if you also describe the data set and the metrics.
(5) Describe the results and discussion of the research.

# Rule
The less duplication of content in each of the answers, the higher the score.
Do not answer the same question more than once.
Answer according to the output format.

# Output Format
{Answer1: “”}
{Answer2: “”}
{Answer3: “”}
{Answer4: “”}
{Answer5: “”}

# Output

ポイント

今回のプロンプトで意識したポイントは以下の通りです。

1. 最初のブロックで目標を設定

先頭から順番に処理されるため、最初のブロックで目標を宣言しました。またRPを指定することで、方向性がズレることを防いでいます。

2. プロンプトは英語で作成

今回は英語論文を対象とするため、英語でプロンプトも作成しました。日本語でも実装は可能ですが、二重翻訳のような回答文が出力されやすいです。

3. 点数制で要約結果を評価

要件を直接的に提示すると、条件に満たない論文では誤った情報を創作しやすいです。また,禁足事項の提示に関しても正常に反映されない事例も確認しています。そこで,禁足事項を負の無限大で知りたい情報を加点要素とするように点数制で要約結果を評価しました。

4. テーマ名と題目も提示して自由創作を防止

論文の本文だけを入力した場合、存在しない論文の要約が出力される例を確認しました。そこで今回は簡潔かつ効果的に働く前情報として、テーマと題目も提示しています。

5. 出力ミスはRuleブロックで順次修正

回答内容の重複や出力結果のループなどの出力ミスを観測しました。これらの出力ミスを軽減するためには、Ruleブロックで管理することが最適でした。

6. 出力形式の指定と”#Output”の挿入で不要な出力結果を削除

出力形式を指定しない場合、ChatGPTは要約結果を自由な形式で出力します。そのため、回答箇所が明示的に示された出力形式を提示することで、面倒な後処理を可能な限り軽減しています。

7.調子が悪いときはChatを新たに作成

同じプロンプトを入力しても、Chatごとに異なる要約結果が出力されました。文の長さやニュアンスに加えて箇条書きなどの文章構成も共有されやすい印象です。いくつか動かした後に有望そうなChatを採用することも戦略の一つかもしれません。

 

出力結果(Chat A)

{Answer1: “The paper presents a case study applying speech modelling and forced alignment methods to narrative data for Nafsan, a low-resource Oceanic language. The study examines the accuracy of forced-aligned phonetic labelling based on limited speech data and compares acoustic and durational measures of vowel tokens with previous experimental phonetic data for Nafsan. The results suggest the suitability of archival data for large-scale studies of phonetic variation in low-resource languages and the feasibility of this approach for expanding to phonetic comparisons across closely-related Oceanic languages.” }

 

出力結果(Chat B)

{Answer1: “The paper presents a study on the phonetic transcription of archival corpora, focusing on the Nafsan language of central Vanuatu. The authors leverage automatic recognition and alignment of speech to prepare phonetic corpora based on archival collections. The results indicate that archival data is suitable for large-scale studies of phonetic variation in low-resource languages and can be used as a starting point for phonetic comparisons across closely-related Oceanic languages.” }

 

結果

以下のリンクでは、INTERSPEECH2022(

https://www.isca-speech.org/archive/interspeech_2022/index.html

)で採択された論文の要約結果をまとめています。ただし、DeepLで英語から日本語に翻訳しています。要約結果を閲覧すると、各論文の要約項目が反映されていることがわかります。ここからキーワードを検索することで、概要だけでは扱いきれない論文間の対応関係をざっくりと把握することができます。ただし、

①著者の主張ポイントが反映されていない

②データセットや評価指標を間違える

③依然として自由創作が存在する

などの要約結果も含まれています。そのため、あくまで参考程度に扱うのが適切です。この要約結果を参考にして、読むべき論文あるいは面白そうな論文を選別します。最終的には、自分自身で精読するという流れが妥当でしょう。

 

 

drive.google.com

課題

今回の自動要約の課題は以下の通りです。

①情報の重みが共通

現在はLinkReaderでPDFから文字情報を抽出しているため、本文だけでなく著者情報や注釈まで同列に扱われます。そのため、本来ならば不要な情報が混在するため要約性能が低下しています。加えて図表に関する情報は含まれていないため、要約に必要な情報も欠如しています。解決策としては、前処理として不要な情報を排除することや画像として論文を入力することが挙げられます。


②専門的知識の不足

背景となる専門的知識がChatGPTの学習モデルに含まれていないとき、論文の肝となる部分を必ずしも要約結果に反映できていません。外部から知識モデルを挿入しない限りは、専門的知識の補充は困難です。

 

③ページ数の制限

ChatGPTではトークン数でプロンプトの長さを管理しています。LinkReaderで扱えるトークン数には限度があるため、長編の学術論文では途中までしか抽出できず要約性能が低下する恐れがあります。分割することで対処できますが、プロンプト間での情報共有が困難であるという課題を抱えています。

 

さいごに

ChatGPTを介して論文を要約しましたが、現状としては多くの課題を抱えています。そのため、あくまで参考程度に扱うのが適切だと私は考えています。これまでは題目や概要で論文を選別していましたが、少しだけ追加情報を提供するような立場になることが理想的ではないでしょうか。まだまだ発展途上に過ぎない生成AIから離れすぎず依存しすぎずに適切な距離感で付き合うことを目指していきましょう。

関連記事

この記事のタグ

この記事の著者の他の記事

screen tagお問合せ