228小時狂飆100篇論文、燒光114億Token：FARS殺瘋了_上海偉傑國際貨物運輸代理有限公司

編輯｜Sia

這個春節，AI 圈最硬核的一場「真人秀」，悄然完成了階段性收官論文。

主角不是動漫人物，也不是舞槍弄棒的機器人，而是一位 7×24 小時從不疲倦的 AI 科學家 FARS（ Fully Automated Research System ）論文。

這套由 Analemma（日行跡）打造的全自動研究系統，在長達 228 小時 28 分 33 秒的連續公開執行中，自己提假設、做實驗、寫論文，共生成 244 個研究假設，「肝」出 100 篇短論文（ short paper ）論文。

算下來，在這座流水線式的「科研工廠」中，每隔約 2 小時就有一篇論文產出論文。

讓 AI 自己寫 100 篇論文目標達成，花了 228 個小時論文。目前，計劃持續一個月的直播仍在進行中。直播地址：

這種跳出傳統科研正規化的工業級吞吐量，很快讓圍觀網友坐不住了論文。

展開全文

首批深度「驗貨」的專業網友給出了一個頗為一致的判斷：結果超過預期、相當出色論文。

如果把它當作人類頂會論文，還不夠驚豔；但如果考慮到這是一個全自動系統的階段性產出，其完成度已經明顯超出很多人的事前預期論文。

「考慮到這只是一個 AI 的自主起步論文，能 7×24 小時穩定產出到這個質量，還要啥腳踏車？」

而且，真 work 沒有通篇幻覺論文。

至少在當前階段，FARS 已經完成了一次關鍵跨越論文。它首次證明，一條無人值守的科研「流水線」不僅能跑，而且能在相對穩定條件下，持續產出具備一定學術競爭力的 short paper 級工作。

「發論文這件事本身的稀缺性」被摧毀了論文。

恐怖的「工業節拍」論文，算力正在轉化為知識

FARS 並不是一個單體模型論文，而是一套多智慧體系統，包括四個功能模組：

Ideation（構思）論文：負責文獻調研與假設生成

Planning（規劃）論文：負責實驗方案設計

Experiment（實驗）論文：負責程式碼編寫與執行

Writing（寫作）論文：負責論文撰寫

從即時執行介面可以直觀看到，FARS 以專案佇列的方式並行推進多個研究任務論文。每個課題依次穿過 Ideation → Planning → Experiment → Writing 四個階段，流程高度模組化，呈現出明顯的「科研裝配線」特徵。

FARS 即時執行介面：從假設生成到論文寫作，自動化科研流水線首次以可觀測形態完整展開論文。

為了讓它心無旁騖的做研究，Analemma（日行跡）還給它搭建了一個 160 張顯示卡的計算叢集，並允許它呼叫幾乎任何開源和閉源大模型，實驗條件遠超大部分高校實驗室論文。

而這條「流水線」的產能，已經到了讓人很難忽視的程度論文。在約 228 小時（≈9.5 天）的連續執行週期內：

系統生成 244 個研究假設

完成 100 篇 short paper

累計消耗 114 億 Token

總成本約 10.4 萬美元（≈75 萬元人民幣）

全程無人干預論文。

進一步歸一化後，這套系統的「工業節拍」變得更加直觀：平均每隔約 2 小時 17 分就有一篇研究論文完成，平均每篇論文成本大約 1000 美元，花費 1 億多Token論文。

對比人類科研常見的 3–6 個月 / 篇的週期，這種吞吐差距幾乎是數量級級別的，成本也極為低廉論文。

不過，如果把目光從吞吐轉向效率，約 1.14 億 Token / 篇的消耗，已經明顯高於普通寫作生成（通常百萬級 Token ）以及常見覆雜 Agent 任務（通常百萬、千萬級 Token ）的開銷論文。

這表明，FARS 仍處於「算力換智慧」的階段，其表現更多來自計算密度，而非演算法效率的極限壓縮論文。

綜合來看，一方面，FARS 已經用實測結果證明，端到端自動化科研流水線在吞吐層面是切實可行的論文。另一方面，其當前的 Token 與成本結構，距離「足夠便宜地大規模跑」還有工程空間。

質量：它寫得快論文，那寫得好嗎？

量大，從來不自動等於質優論文。FARS 寫出來的東西，到底處在什麼水平？

為此，研究團隊使用斯坦福大學開發的 AI 審稿系統 Agentic Reviewer（ paperreview.ai ），按照 ICLR 的評審標準，對這 100 篇論文進行了統一打分論文。

根據開發者公開評估，Agentic Reviewer 在審稿一致性上，已達到人類審稿人的判斷水平論文。

開發者在 ICLR 2025 審稿資料上做了對比評測，使用的是 Spearman 相關係數論文。人類 vs 人類：0.41；AI vs 人類：0.42。開發者認為 agentic reviewing 正在逼近人類水平。

從整體評分結果來看，FARS 產出的 100 篇論文中，平均得分為 5.05（區間 3.0–6.3）論文。

少量論文處於 3.0–4.5 的低分段，也有極少數突破 6.0 分論文。

FARS 論文分數主要堆在 5 分附近，說明產出質量並不是隨機波動，而是已經形成相對穩定的「質量帶」論文。少量樣本進入 6 分以上區間，意味著系統偶爾能產出超強作品。

這個成績論文，與人類戰績相比，又如何呢？

作為參照，ICLR 2026 人類投稿的平均分為 4.21，而最終被接收論文的平均分為 5.39論文。

對照來看，FARS 的平均分 5.05，已經明顯高於人類投稿的整體平均水平，但距離「平均中稿線」仍存在差距論文。

可謂比下有餘，比上未滿論文。

FARS 生成的學術論文平均分超過人類投稿者的平均水平，但與平均中稿分數仍有差距論文。

需要再次強調的是，本次自動化生產以短論文為主，並未以當前學術會議的評審標準作為最佳化目標論文。因此，無論是斯坦福大學 Agentic Reviewer 還是其他基於現有特定審稿標準的 AI 審稿結果，都只能作為一種參照，而非蓋棺定論。

據團隊透露，除 AI 審稿外，目前也在同步開展人工質量評審，並將在評估完成後形成綜合質量報告論文。

即便在這一審慎前提下，將前後兩部分資料合併觀察，整體訊號仍然較為清晰：在接近人類評審尺度的評價體系中，FARS 已然一臺穩定的中分段輸出機器論文。

論文深讀論文：

從「極速跟進」到「直面失敗」

如果說前面的資料與評分只能給出一條宏觀刻度，那麼具體論文樣本，才真正暴露出 FARS 的研究成色論文。

已有網友拆解其中一篇 LLM-as-a-Judge 工作後評價，這類論文在摘要組織與問題切入上已經相當工整論文。

考慮這是 AI 自動產出，完成度已經「超出預期」論文。框架圖、結果圖、分析基本都齊全，「像那麼回事」

也有人覺得編號為 FA0008 的專案「 make sense 」論文。

接下來，我們選擇一成一敗兩篇代表作，一探究竟論文。

先看「做成」的一篇 FA0042論文。它瞄準的是文字 embedding 裡一個老矛盾：

雙向注意力質量高，但會破壞 KV-cache；因果注意力能流式推理，但表示能力吃虧論文。

FA0042 的解法非常工程導向——訓練階段用雙向拿質量，推理階段用因果保效率論文。具體路徑是先訓一個雙向 teacher，再把能力蒸餾進 causal student。為了避免直接切雙向帶來的分佈漂移，論文還引入了剛釋出不久的 GG-SM 做漸進過渡。

結果也確實「能打」，這條工程折中路線被驗證是 work 的論文。

MTEB-slice 主要結果

流式推理延遲對比

LoCoV1 長文件檢索結果論文。student 模型以 0.284 的 NDCG@10 大幅領先所有 baseline（包括 teacher 的 0.212 ），出人意料。

當然，short paper 氣質也很足：細粒度成對任務提升有限，長文件檢索反超 teacher 的機制還沒完全講透論文。

但更值得注意的是，螞蟻集團的 GG-SM 釋出 3 天就被接入實驗流程，這種緊跟前沿的速度，本身就是 FARS 系統敏捷性的一個訊號論文。

再看一篇「沒做成」的 FA0121論文。

它的文獻調研很給力論文，盯上了 DeepSeek 新提出的 Engram 稀疏架構，並抓到了一個很研究味的問題——

hot-to-cold advantage flip , 即 Engram 中的門控（ gate ）在訓練過程中難以準確根據 n-gram embedding 的實際效用進行調整，存在高頻（ hot ）和低頻（ cold ）偏置論文。

為了打破這種「馬太效應」，FARS 嘗試了一個直覺上非常硬核的方案：試圖透過「反事實門控監督（ CGS ）」修復 DeepSeek Engram 架構中的「冷熱偏置」問題論文。

在特定訓練步驟中分別強制 gate 全開和全關，計算兩種情況下的 loss 差值來估計當前 n-gram embedding 的實際效用，以此作為輔助監督訊號來訓練 gate論文。

FA0121 方法示意圖

主實驗結果

思路很直覺論文。但結果很誠實——基本沒救回來。

CGS 帶來的那點提升，甚至不如讓模型多訓練幾步來得實在論文。這說明，要解決 AI 的偏見，光靠「教練現場打分」是不夠的，得從更深層的制度（架構）上下功夫。

論文給出的覆盤也很到位：Gate 和 n-gram embedding 的訓練是一個相互耦合的系統動力學問題，不是簡單加監督就能補的論文。

這篇工作的價值正在於：它沒有試圖掩蓋負面結果，沒有為了追求正面結果而篡改資料或強行解釋，而是透過一套嚴密的診斷性實驗（Diagnostic Experiments ），反思 CGS 的失敗論文。

這種「演算法誠實」是當前學術界稀缺的品質論文。

輿論場：

從「又一個 Demo」到「科研流水線雛形」

隨著 FARS 「直播真人秀」資料披露，社羣討論也迅速升溫，高頻指向一個關鍵詞——生產線論文。

不少圍觀者很快抓住了真正的衝擊點：這次引發不安的，並不是某一篇論文寫得多驚豔，而是系統所展現出的連續科研運轉能力論文。

當一個系統能夠穩定提出假設、自動完成實驗、並持續吐出成稿時，評價座標其實已經悄然移動論文。問題不再是「 AI 會不會寫論文」，而是更具結構性的那一句—— AI 是否開始具備科研工業產能的雛形。

這種敘事重心的變化，本身就意味著社羣對 AI 科研系統的預期正在抬升論文。一些技術討論甚至認為，LLM 在 AI 方向論文寫作上的能力已「基本夠用」，剩餘差距更多體現在工程細節層面。

「 3 個月內就可能出現非常成熟可用的自動 paper pipeline論文。」

換言之，大多數人幾乎已經預設：科研流水線時代，遲早會來論文。真正懸而未決的問題反而是，當科研開始規模化自動生產，人類的不可替代性究竟還剩下什麼？

對此，也有人給出答案：決定上限的，或許仍是研究者個人品味論文。

當然，社羣並非只有單一聲音論文。

有人認為，與其關注單純 scale 出大量「普通 conference paper 」，不如將算力與模型能力投入到真正困難的開放問題上，這或許才是更具長期價值的方向論文。

無限心智的起點

FARS 的這 100 篇論文，並不是終點，更像是一枚被釘下的座標點論文。

它證明了一件很重要的事：端到端自動科研流水線，已經能夠在相對穩定的執行條件下，持續產出具備一定學術競爭力的 short paper，並且開始展現出基礎的自我糾錯與負結果報告能力論文。

這意味著，自動化科研第一次以一種可連續運轉的系統形態，正式進入現實論文。

但如果把放大鏡再壓近一層，當前階段的天花板同樣清晰可見論文。

FARS 很會把一條合理路徑走通，卻還不夠擅長在複雜假設空間中做出真正具有突破性的研究取捨；能完成結構完整的論證，但在思想壓強和機制洞察上仍有提升空間；而在算力利用率上，系統也還停留在明顯的「算力換智慧」階段論文。

此刻的 FARS，更像一位極度勤奮、訓練有素且從不疲倦的初級研究員，距離那種能夠穩定打出頂會級工作的成熟研究者，仍有一段需要跨越的進化距離論文。

不過，真正重要的或許並不是它此刻已經多強，而是那條「無限心智生產線」，已經可以穩定地跑起來論文。

228小時狂飆100篇論文、燒光114億Token：FARS殺瘋了

上海偉傑國際貨物運輸代理有限公司

熱門標籤

相關詞彙