微軟推出擅長電子表格編碼的大型語言模型


3樓貓 發佈時間:2024-07-16 16:48:38 作者:AIGCFREE Language

微軟發佈了一款新型大型語言模型,名為SpreadsheetLLM,專門用於處理電子表格。這款模型在數據管理和分析方面展現出卓越的性能,有望顛覆現有的數據處理方式,提升用戶交互的智能化和效率。

微軟推出擅長電子表格編碼的大型語言模型-第0張

這款新模型解決了傳統大型語言模型在處理具有複雜二維網格結構、靈活佈局和多樣格式選項的電子表格時遇到的挑戰。微軟團隊開發了名為SheetCompressor的創新編碼框架,有效地壓縮電子表格,使得模型在表格檢測任務中的性能比傳統方法在GPT4的上下文學習設置中提升了25.6%。

SpreadsheetLLM包含三個主要模塊:基於結構錨點的壓縮、反向索引轉換和數據格式感知聚合。通過在電子表格中設置結構錨點,模型能更準確地理解表格內容,並通過移除距離較遠的同質行列,生成精簡的表格骨架版本。索引轉換通過採用JSON格式的無損反向索引轉換,不僅優化了模型的token使用效率,也保持了數據的完整性。

微軟推出擅長電子表格編碼的大型語言模型-第1張

此外,該模型還能有效處理數字格式相似的相鄰數值單元格。通過提取數字格式字符串和數據類型,並將相同格式或類型的相鄰單元格聚集,簡化了對數值數據分佈的理解,避免了過多的token消耗。

經過在多種大型語言模型上的全面評估,微軟發現SheetCompressor顯著減少了電子表格編碼所需的token使用量,高達96%。在電子表格檢測方面,SpreadsheetLLM表現出色,顯示了其在電子表格理解的基礎任務上的優異性能。

這一新型大型語言模型基於“Chain of Thought”方法論,引入了名為“Chain of Spreadsheet”(CoS)的框架,能夠將電子表格推理分解為表格檢測、匹配和推理的流程。這一框架的擴展展示了其在電子表格下游任務中的廣泛適用性和潛力,有望改變電子表格數據管理和分析的方式,為用戶提供更智能、更高效的交互體驗。

微軟推出擅長電子表格編碼的大型語言模型-第2張

SpreadsheetLLM的發佈預示著大型語言模型在未來可能在處理結構化和非結構化電子表格數據方面發揮重要作用,對財務預測、財務分析和估值等多個應用場景具有廣泛的應用前景。


© 2022 3樓貓 下載APP 站點地圖 廣告合作:asmrly666@gmail.com