生成式AI如何輔助歷史研究(三)數位人文篇
數位人文學(Digital Humanities )之發軔,主要目的在於讓人文學者應用新興數位工具及技術,輔助或直接進行人文學研究。拜數位科技高速進展所賜,數位人文學得以在21世紀蓬勃發展。史學界亦不外於這股潮流,許多學者紛紛投入,運用電腦程式及其他數位工具,將大量紙本史料轉為電子文本,進而對文本加值,或進行詞彙標記,展開量化統計、詞頻數據分析,以追求知識的創新。[1]
然而,在從事數位人文分析前,研究者往往需耗費大量時間精力,將手邊史料進行初步整理、歸納,再依據不同需求分類,編輯後設資料(Metadata),或建置各種權威詞檔/辭典檔。對此,新興的生成式AI工具能如何提供協助呢?本文將為您提供數種實用Prompt,期望能為各位縮短彙整表格、加值以及標記等資料建置流程,也減輕人工作業的負擔。
※本文教學使用的免費AI工具為Microsoft Copilot,搭載GPT-4模型,交談形式選擇「精確」。對話欄需輸入電腦可識讀的電子文本,方可實踐指令(影像檔的文字識別效果尚不精確)。[2]
一、建表格
範例一 1924年《申報》刊登春節相關報導
「報紙」是近現代史研究最不可忽視的材料之一,這類長時間連續性的出版品,是能讓研究者理解研究社會動態及變遷的重要窗口。但也由於報紙涵蓋的資訊量龐大,學者大多會根據自己關懷的議題,蒐集多篇相關的報導。倘若欲利用這些報導進行數位人文研究,我們可以先藉AI工具整理史料的後設資料,分類抓出其中的關鍵詞,為後續的詞頻、共現分析建立基礎。
例如:100年前,上海《申報》刊登的農曆春節相關新聞約有36篇,[3]這些報導討論了哪些的議題、屬於什麼類型的報導、文中又提到了那些人物、物品等資訊?
STEP 1 設定AI角色及所需表格欄位、規則
Prompt: 你是一個擅長根據文章製作表格的專家。[設定角色]請分析以下報導文章,按照編號、報導日期、版次、報導作者、報導標題、報導類型、提及人物、提及物品九個欄位,[設定表格欄位]製成繁體中文表格。如有未提到的資訊、表格可空白不填〔補充規則〕。此規則適用以下所有我提供的文章,不需要我再重複[重複使用指令]。
🧧提問Tips:設定AI所扮演的角色,可讓AI了解自己定位,並根據該定位執行使用者指令。
最後加上「此規則適用以下所有我提供的文章,不需要我再重複」,往後就不需要再重複同樣的Prompt,直接貼上報導文字即可。
STEP 2 依序輸入報導文字,AI即可自動建成表格
STEP 3 將AI初步建成的表格選取複製,貼上常用的製表軟體Excel中編輯即可。
注意:
1. 需要分析的史料越複雜,AI初步建成的表格越有可能出錯,使用者仍須仔細校閱,不可逕用。
2. 輸入史料須注意字數上限,本文使用的Microsoft
Copilot每次輸入字數上限為4000字,ChatGPT免費版(GPT-3.5)上限為2000字。若史料超過字數,請分段輸入。
範例二 菜單食譜食材分類、菜市場物價表
民國時期報刊中時常規劃婦女與家庭性專欄,除了探討婦女在社會扮演的角色、兩性關係,也經常涉及家庭生活的方方面面。例如:1935-1937於上海出版的《家庭星期》雜誌,自創刊起即設置了「一星期的家庭菜單」及「一星期的菜市調查」專欄,為主婦日常做菜、買菜提供參考。而這也是讓研究者了解淞滬會戰前上海民生飲食及物價的重要材料。[4]對於這類材料,我們同樣可以利用AI快速彙整出菜單中使用的食材、烹調方式、菜價等資訊表單。
《家庭星期》第一卷第一期(上海,1935),頁14。(來源:上海圖書館《全國報刊索引》數據庫。)
Prompt:
你是一個擅長根據文章製作表格的專家。[設定角色]請幫我根據以下內容,建置一個包含刊名、年代、卷期、頁數、篇名、星期、個別食材、烹調方式、備註九個欄位的表格[設定表格欄位]。最後提供完整文章內容〔輸入全文〕。
Prompt:
你是一個擅長根據文章製作表格的專家。[設定角色]請幫我根據以下市場菜價,建置一個食材品項(不同大小種類要分開列)、計價(價格請轉成阿拉伯數字)二個欄位的表格[設定表格欄位及補充規則]。最後提供完整文章內容〔輸入全文〕。
最後同樣再將AI建置的表格全選複製,貼上EXCEL表單上即可編輯使用。
〈一星期的家庭菜單〉所用食材、烹調分類表
〈一星期的菜市調查〉物價表
範例三 擷取部分廣告內容
如果您只需要使用文本中的部分資料來建置表格,也可以請AI先行剔除不需要的資訊,再進一步建表。例如,若想了解1912年上海商務印書館出版的《婦女雜誌》中,除了商務出版社本身,尚有收錄哪些贊助廠商的廣告,提及哪些商品,屬於何種品牌等,可給予如下指令:
Prompt: 你是一個建置表格的專家,非常擅長根據需求建立精準的表格。[設定角色]
請幫我將以下資訊去除商務印書館及婦女雜誌相關廣告條目[刪除不需要的資訊],製成一個包含出版年、卷期,廣告標題、品牌、銷售商品、商品廠商六種欄位的EXCEL表格。[設定表格欄位]最後提供完整內容〔輸入全文〕。
二、校訂或增補表格
AI初步建置的表格,難免會出現誤植資訊或缺漏的情況(文章越複雜,AI越容易出錯)。例如AI建置的範例一表格中,就有幾處明顯的錯誤,如下紅字處:
Prompt: 「我國舊俗」不屬於人物,請刪除[指出錯誤資訊];另外加一欄「提及行為」,將「呼盧、喝雉、擊球、猜謎、跳舞」重新編入[新增欄位、更正欄位資訊]。
另一種情況是,如果建表的過程中,臨時想新增一欄,同時也要將前面已編過文章,重新分析補入新欄目資訊,可給予如下指令:
Prompt:
請新增一欄「提及地點和場所」[新增欄位],並重新更新以上表格〔更新表格資訊〕。
三、表格轉製為權威詞檔/辭典檔
當表格建置完成後,我們可以再利用AI將各欄位中的內容,轉製成權威詞檔/辭典檔。依據使用者所需的詞檔形式(如一詞一列的純文字檔、或一詞一列的EXCEL表),可指示如下:
Prompt:
請幫我將以下提及人物[設定詞檔主題],刪除「無」的資料[去除多餘資訊],以一行列一個形式的形式,一一排列出來[設定詞檔呈現形式]。
(排列方式例如:
店主
夥友
學徒)[示範]
+貼上該表格欄位之內容。
Prompt:
請幫我將以下提及場所[設定詞檔主題],刪除「無」的資料[去除多餘資訊],作成一欄表格,每一行列一個場所[設定詞檔呈現形式]。
+(貼入該表格欄位之內容)
將建置完成的各種詞檔,連同研究者蒐集的文本,一同匯入數位人文分析工具中,即可根據詞頻統計,導出各類分析數據,並可以視覺化方式呈現。
以範例一而言,我們將1924年《申報》刊登的36篇農曆春節報導,搭配AI建置的人物、物品、場所、行為等權威詞檔,一同匯入中研院數位文化中心開發之「數位人文研究平臺」,即可快速獲得以下量化分析圖:
「1924年《申報》農曆春節報導中提及的物品及行為」共現視覺圖。
從中可看出100年前,上海地區的居民在新年期間常用哪些物品,進行什麼活動。
以上分享的的指令,不僅對數位人文研究,相信對於日常史料整理工作,乃至於資料庫加值作業,也定能有所助益。如果您曾為建置後設資料表、詞彙檔等繁瑣的人工作業感到苦惱,不妨利用AI工具來嘗試看看吧!
[1] 林富士主編,《數位人文學白皮書》(臺北:中研院數位文化中心,2017),頁8、12。最新相關著作可參見漢儒‧薩爾彌(Hannu Salmi)著,范純武、湯瑞弘譯,《何謂數位歷史學?》(臺北:貓頭鷹出版,英屬蓋曼群島商家庭傳媒股份有限公司城邦分公司發行,2024)。
[2] 受益於越來越多全文資料庫平臺的建立,如今取得電子化史料已愈發方便。若研究者只有紙本文獻或純影像檔,則可利用現行的光學字元辨識(OCR)技術,轉化為文字檔。OCR工具除了常見的Adobe Acrobat、Google外,中央研究院數位文化中心開發的「文字辨識與校對平臺」,對中文材料的辨識率可高達90%以上,歡迎各界多多利用!
[3] 可從本所訂購《申報》電子全文資料庫檢索查詢。
[4] 如欲了解淞滬會戰後上海民生飲食及物價情況,同類型史料可參考華英女士於1938年起在《申報》連載的〈一星期經濟菜單〉以及各大報紙刊載的菜市售價調查。相關研究可參考本所博士後研究人員許秀孟,〈匱乏的治理:太平洋戰爭期間上海的食物配給與日常生活〉(臺北:國立臺灣大學歷史學研究所博士論文,2020)。
留言
張貼留言