在更多文本上訓練的大型語言模型(LLMs)通常優於使用較少文本的LLM。因此,預計擁有有價值文本內容的出版商將成為LLM製作者的授權戰場,而語言獲取成本(LAC)將成為一筆真正的支出。
據稱,穀歌每年支付150億美元成為蘋果設備上的默認搜索引擎。
對於穀歌來說,這些流量獲取成本(TAC)每年總計超過500億美元,但獲得的排他性對穀歌鞏固其搜索領先地位至關重要。
隨著大型語言模型(LLM)霸權之爭的進行,對語言/文本的獨家訪問也將變得至關重要。
擁有生成式人工智能雄心的大型科技公司將尋求出版商獨家擁有其人工智能代理,以實現兩個目標——改進他們的模型,並通過剝奪他們的訪問權來削弱其他人。
因此,如果語言獲取成本出現,大型科技公司應該鎖定誰?我們深入研究了影響llm的一些因素,並在下麵分享了21個許可目標。
更多的文本對LLMs更好嗎?
是的,一般來說,能夠訪問更多文本信息的大型語言模型(LLM)要優於不能訪問這些信息的大型語言模型。這是因為llm的性能在很大程度上取決於它們所訓練的數據的數量和質量。
LLM可以訪問的文本數據越多,它就能更好地識別語言模式,並預測接下來應該出現什麼單詞或短語。
此外,訪問更廣泛的文本數據可以幫助llm更好地執行各種任務。例如,如果一個LLM接受了來自許多不同來源的文本數據的培訓,那麼它可能能夠更好地理解和生成跨各種領域和用例的語言——無論是用於商業和意圖還是知識/研究答案。
當然,值得注意的是,僅僅能夠訪問更多的文本數據並不總是足以使LLM更優秀。數據的質量也很重要,LLM的訓練和微調方式也很重要。盡管如此,總的來說,能夠訪問更多的文本信息是大型語言模型性能的一個關鍵因素。
誰是最具吸引力的LLM授權目標?
從許可的角度來看,目標對象的選擇將取決於許可方希望滿足的提示。
大型語言模型將主要用於兩種類型的提示,可以歸結為:
- 商業和意圖-這是人們尋求答案來幫助決定購買(例如,最好的車是什麼?最好的酒店是哪家?最好的微波爐是什麼?等等)
- 知識/研究-這類人尋求問題的直接答案。這可以是關於體育、科學、政治等。
當然,這兩者可能是相關的。最初作為研究或知識提示可能演變為商業提示(反之亦然)。
下麵強調的授權目標涵蓋了醫療保健、軟件開發、電子商務、娛樂、股票投資等各個方麵。
許多是UGC(用戶生成內容)網站,許多是公開的,因此限製和許可他們的內容可能需要一些改變。
這份名單還包括一些令人驚訝的老名字,你可能不會想到會看到,但每個月都有數百萬的訪問者,並且有大量的曆史文本可供培訓LLMs。
以下是21個發牌目標,排名不分先後,目的是:
- 他們的月流量
- 他們目前的估值
- 所有權的地位
- 類似的公司
- 提示他們將是有用的
1.Instructables訪問(15米/月)
這是一個分享各種DIY項目的逐步指導的平台,從烹飪到製作到技術。
- 目前狀況:已獲得
- 老板:歐特克
- 提示類型:兩者都有
- 類似的公司有:Hackster.io