當(dāng)大模型學(xué)會(huì)「讀表格」:智能問(wèn)答如何破解數(shù)據(jù)結(jié)構(gòu)化難題?
Gartner最新研究指出,2025年企業(yè)業(yè)務(wù)數(shù)據(jù)中超60%將依賴表格存儲(chǔ)。這意味著表格已經(jīng)成為企業(yè)管理知識(shí)的重要方式,遠(yuǎn)遠(yuǎn)超過(guò)了傳統(tǒng)的文本形式。其結(jié)構(gòu)化特性帶來(lái)的信息密度與交互效率,使得表格問(wèn)答在智能問(wèn)答領(lǐng)域的地位愈發(fā)關(guān)鍵。
表格問(wèn)答難在哪?
可別小看表格問(wèn)答,它的難度可不低。和普通文本相比,表格就像個(gè)復(fù)雜的謎題。
結(jié)構(gòu)復(fù)雜:普通文本是“一行到底”的簡(jiǎn)單結(jié)構(gòu),模型順著讀就能明白意思。但表格是二維的,單元格合并、跨行跨列這些情況太常見(jiàn)了,信息就像被打散的拼圖,找起來(lái)特別費(fèi)勁。
語(yǔ)義難解:在理解語(yǔ)義方面,普通文本的關(guān)鍵信息一目了然,像“2025年一季度A產(chǎn)品銷售額100萬(wàn)”,誰(shuí)都能看懂。但表格得靠表頭才能知道數(shù)據(jù)是什么意思,有些表格還有多級(jí)表頭、跨列跨行表頭,信息又多又復(fù)雜,邏輯都藏在表格結(jié)構(gòu)里。
解析邏輯:以前解析表格主要靠單元格的顏色、填充這些視覺(jué)標(biāo)記來(lái)識(shí)別表頭,可要是遇到黑白文檔、掃描件,或者沒(méi)有這些標(biāo)記的表格,就沒(méi)辦法了。
表格存儲(chǔ)示意
自研表格理解增強(qiáng)技術(shù)
不過(guò)別擔(dān)心,金現(xiàn)代團(tuán)隊(duì)?wèi){借強(qiáng)大的技術(shù)實(shí)力,研發(fā)出了基于類 HTML 解析語(yǔ)法的表格理解增強(qiáng)技術(shù),能讓大模型更準(zhǔn)確地理解表格數(shù)據(jù)。實(shí)現(xiàn)過(guò)程主要有下面6步:
獲取信息:獲取不同格式知識(shí)文檔中的文本信息和表格信息。
統(tǒng)一格式:將表格信息轉(zhuǎn)換為統(tǒng)一的存儲(chǔ)格式,并定義基于行和列的存儲(chǔ)格式。
確定表頭區(qū)域:根據(jù)表格中形成表頭的位置規(guī)律,確定表頭大致區(qū)域。
詳細(xì)表頭區(qū)域:將確定的表頭大致區(qū)域的文字內(nèi)容拼接,采用預(yù)訓(xùn)練語(yǔ)言模型,對(duì)拼接后的內(nèi)容進(jìn)行分類,確定表格所屬類別,進(jìn)而確定表頭詳細(xì)區(qū)域。
處理表格內(nèi)容:根據(jù)確定的表頭詳細(xì)區(qū)域,以表頭為基準(zhǔn),對(duì)表格其余部分進(jìn)行單元格合并或拆分,得到單元格無(wú)合并的情況且每行列數(shù)相同、每列行數(shù)相同的表格內(nèi)容。
存儲(chǔ)表格知識(shí):以表頭單元格的文字內(nèi)容為字段名,對(duì)應(yīng)的列或行中的單元格文字內(nèi)容為值,將表格內(nèi)容轉(zhuǎn)換為鍵值對(duì)的形式,將原本表格中的一行或一列編為一組鍵值對(duì)字符串,向量化后存入向量庫(kù)中。
經(jīng)過(guò)這6步的處理,就像給表格來(lái)了一場(chǎng) "結(jié)構(gòu)化改造",最終把復(fù)雜表格變成機(jī)器能看懂的 "鍵值對(duì)",再亂的表格數(shù)據(jù)都能乖乖 "對(duì)號(hào)入座",讓大模型理解表格就像讀普通文字一樣簡(jiǎn)單。
表格問(wèn)答優(yōu)勢(shì),賦能行業(yè)應(yīng)用
憑借在表格問(wèn)答領(lǐng)域的技術(shù)突破,金現(xiàn)代智能問(wèn)答系統(tǒng)構(gòu)建了兼具創(chuàng)新性與實(shí)用性的知識(shí)服務(wù)體系。系統(tǒng)可針對(duì)檢測(cè)標(biāo)準(zhǔn)、設(shè)備說(shuō)明書(shū)等非結(jié)構(gòu)化文檔提供精準(zhǔn)問(wèn)答服務(wù),更能在批量復(fù)雜表格處理場(chǎng)景中展現(xiàn)強(qiáng)大性能,為企業(yè)決策提供支撐,推動(dòng)知識(shí)管理向自動(dòng)化、智能化層級(jí)躍遷。
表格問(wèn)答示意
金現(xiàn)代將持續(xù)聚焦技術(shù)迭代與場(chǎng)景創(chuàng)新,不斷提升系統(tǒng)的智能解析精度與服務(wù)響應(yīng)效率,致力于在智能問(wèn)答領(lǐng)域構(gòu)建更具深度與廣度的解決方案,助力企業(yè)釋放數(shù)據(jù)價(jià)值,開(kāi)創(chuàng)智能知識(shí)管理新范式。