**編者按:**本文分享了有助於提高 AI 代理性能的工具和方法,重點在於數據收集和清洗。推薦了多種無代碼工具,如將網站轉化為 LLM 友好格式的工具,以及用於 Twitter 數據抓取和文檔摘要的工具。還介紹了存儲技巧,強調數據的組織性比複雜的架構更重要。通過這些工具,用戶能夠高效整理數據,為 AI 代理的訓練提供高質量的輸入。
以下為原文內容(為便於閱讀理解,原內容有所整編):
我們今天看到了許多 AI 代理的推出,其中 99% 將會消失。
是什麼讓成功的項目脫穎而出?數據。
以下是一些能夠使您的 AI 代理脫穎而出的工具。
好數據=好 AI。
把它想象成一個數據科學家在構建管道:
收集 → 清洗 → 驗證 → 存儲。
在優化向量數據庫之前,先調整好您的少樣本示例和提示詞。
圖片推文鏈接
我將當今的大多數 AI 問題視為 StevenBartlett 的「水桶理論」——逐步解決。
先打好數據基礎,這是構建優秀 AI 代理管道的根基。
以下是一些用於數據收集和清洗的優秀工具:
無代碼的 llms.txt 生成器:將任何網站轉換為適合 LLM 的文本。
圖片推文鏈接
需要生成 LLM 友好的 Markdown?試試 JinaAI 的工具:
用 JinaAI 爬取任何網站,將其轉換為適合 LLM 的 Markdown 格式。
只需在網址前加上以下前綴,就可以獲取一個 LLM 友好的版本:
想獲取 Twitter 數據?
試試 ai16zdao 的 twitter-scraper-finetune 工具:
只需一條命令,即可爬取任何公共 Twitter 賬戶的數據。
(查看我之前的推文了解具體操作方法)
圖片推文鏈接
數據源推薦:elfa ai(目前處於封閉測試階段,可私信 tethrees 獲取訪問權限)
他們的 API 提供:
最受關注的推文
智能粉絲篩選
最新的 $ 提及內容
賬戶信譽檢查(用於過濾垃圾內容)
非常適合用於高質量的 AI 訓練數據!
用於文檔摘要:試試 Google 的 NotebookLM。
上傳任意 PDF/TXT 文件 → 讓它為您的訓練數據生成少樣本示例。
非常適合從文檔中創建高質量的少樣本提示詞!
存儲小貼士:
如果使用 virtuals io 的 CognitiveCore,可直接上傳生成的文件。
如果運行 ai16zdao 的 Eliza,可以將數據直接存儲到向量存儲中。
專業建議: 井井有條的數據比花哨的架構更重要!
「原文鏈接」