玄幻小说排行榜,最好看的小说排行,有声

6 月 26 日消息，據外媒 Ars Technica 今日報道，當地時間周一公開的法庭文件披露，人工智能公司 Anthropic 曾斥資數百萬美元，將實體圖書拆解并掃描成數字文件，用于訓練類似 ChatGPT 的 AI 助手 Claude。為了獲取訓練數據，公司將大量圖書拆除裝訂、掃描進系統，隨后直接丟棄原件。

判決書長達 32 頁，披露了 Anthropic 在 2024 年 2 月雇傭 Tom Turvey 的經過。Turvey 曾負責 Google Books 項目的合作事務，公司委托他“獲取全世界的圖書”。這一戰略性人事安排，顯然是希望復制谷歌曾被法院認定為合理使用的圖書數字化模式。

最終，法官 William Alsup 裁定，該掃描方式構成合理使用，理由是圖書已由 Anthropic 合法購買、掃描后即刻銷毀，且數字文件僅限內部使用，未向外傳播。他認為這類轉換相當于“節省空間”的數字化轉化，具有合理使用中的“轉化性”特征。如果公司一開始就遵守這一路徑，或許已樹立 AI 合理使用的首個判例，但早期的盜版行為削弱了其合法性。

核心原因其實很簡單：AI 訓練需要海量優質文本。為了構建大語言模型，研究人員需將億萬詞語輸入神經網絡，反復訓練模型，建立詞語與概念之間的關系。

訓練數據的質量直接影響模型輸出的準確性。相比網絡評論等雜亂信息，編輯過的書籍和文章能顯著提升 AI 的語言能力。

AI 公司急需出版內容，但通常不愿耗費時間談授權。美國的“首次銷售原則”提供了法律空間：買下實體書之后，使用者可以自行處理。這就讓購買圖書成為一種合法的“繞道方案”。

和許多同行一樣，Anthropic 最初選擇了繞過版權的捷徑。IT之家從法庭材料獲悉，為了繞開冗長復雜的授權流程，CEO 阿莫代伊曾主張使用盜版電子書。但到了 2024 年，出于法律考慮，公司開始尋求更安全的替代方案。

收購二手書成為理想選擇：不必談授權，又能獲得質量上乘的訓練文本。為了加快數字化進程，Anthropic 采用“破壞式掃描”，大量購入圖書，拆封、裁剪、整批掃描為機器可讀的 PDF 文件，完成后紙本全部廢棄。整個流程耗資數百萬美元。

該公司的購買對象大多是零售渠道的普通舊書。但事實上，非破壞性掃描技術早已成熟。比如 Internet Archive 就開發出可保留原書的數字化手段。本月早些時候，OpenAI 和微軟也宣布與哈佛大學圖書館合作，計劃使用近百萬本公版書籍訓練 AI，這些書籍在被數字化的同時依舊妥善保存。

欧美国产日本-欧美国产日韩第一页-欧美日产国产精品-欧美日韩国产在线-极品福利视频-极品成人

為訓練AI模型，Anthropic耗資數百萬美元購入并“銷毀”巨量圖書

自媒體學習更多>>

欧美 国产 日本-欧美 国产 日韩 第一页-欧美 日产 国产精品-欧美 日韩 国产 在线-极品福利视频-极品成人

為訓練AI模型，Anthropic耗資數百萬美元購入并“銷毀”巨量圖書

自媒體學習更多>>

欧美国产日本-欧美国产日韩第一页-欧美日产国产精品-欧美日韩国产在线-极品福利视频-极品成人

為訓練AI模型，Anthropic耗資數百萬美元購入并“銷毀”巨量圖書