近日,一組關(guān)于80后死亡率的數(shù)據(jù)在網(wǎng)上引發(fā)廣泛關(guān)注。一些微信公眾號(hào)發(fā)文,“截至2024年末,80后死亡率突破5.2%,相當(dāng)于每20個(gè)80后中就有1人已經(jīng)去世。”“80后的死亡率已經(jīng)超過(guò)70后?!币恍┪恼绿?hào)稱這些駭人聽(tīng)聞的數(shù)據(jù)是來(lái)自第七次全國(guó)人口普查的所謂“權(quán)威數(shù)據(jù)”。事實(shí)真是如此嗎?
這就是日前在網(wǎng)絡(luò)社交平臺(tái)上廣泛傳播的表格,表格內(nèi)容顯示“80后累計(jì)死亡率為5.20%”。
記者梳理發(fā)現(xiàn),網(wǎng)絡(luò)上有不少引用這一數(shù)據(jù)的關(guān)于80后死亡率的文章,還有不少自媒體文章在不斷渲染,比如:“80后5.2%的死亡率,開(kāi)啟了黃金一代的黯然離場(chǎng)”;再比如:“當(dāng)80后開(kāi)始集體謝幕——5.2%死亡率背后,一代人的生存困境與時(shí)代之殤”。
更有網(wǎng)絡(luò)圖片將所謂80后死亡率做成柱狀圖,稱:“每20人中1人已離世”,并標(biāo)注對(duì)比數(shù)據(jù),稱“70后死亡率低于更年輕的80后”。如此駭人聽(tīng)聞的數(shù)據(jù),是真的嗎?
中國(guó)人民大學(xué)人口與健康學(xué)院教授李婷長(zhǎng)期從事人口發(fā)展研究,她表示,這一數(shù)據(jù)與事實(shí)嚴(yán)重不符。李婷在對(duì)網(wǎng)絡(luò)上相關(guān)文章進(jìn)行梳理后發(fā)現(xiàn),大多數(shù)文章都號(hào)稱該數(shù)據(jù)來(lái)自第七次全國(guó)人口普查的數(shù)據(jù)。然而第七次全國(guó)人口普查的時(shí)間是2020年,顯然其結(jié)果無(wú)法預(yù)測(cè)2024年的死亡率。此外,人口普查數(shù)據(jù),只會(huì)公布去年一年對(duì)應(yīng)時(shí)期的死亡率,比如2020年的第七次全國(guó)人口普查,反映的是2019年11月1日到2020年10月31日的死亡率,其中并不存在針對(duì)特定群體,比如“80后的累積死亡狀況”這樣的統(tǒng)計(jì)。
中國(guó)人民大學(xué)人口與健康學(xué)院教授 李婷:從國(guó)家的統(tǒng)計(jì)流程,包括國(guó)家衛(wèi)健委公布的每年跟死亡相關(guān)的數(shù)據(jù),它都是一個(gè)時(shí)點(diǎn)數(shù)據(jù)。就是說(shuō),比如說(shuō)公布的今年的預(yù)期壽命、死亡率、某個(gè)年齡的死亡率,它都是實(shí)時(shí)刻畫的,比如說(shuō),1990年死亡率、2000年怎么樣,這個(gè)也是國(guó)際上的官方統(tǒng)計(jì)最常用的方式。
而對(duì)于網(wǎng)絡(luò)上出現(xiàn)的關(guān)于“5.2%”的這個(gè)死亡率的數(shù)據(jù),李婷教授也表示,錯(cuò)誤非常明顯,因?yàn)閷I(yè)統(tǒng)計(jì)數(shù)據(jù)中關(guān)于死亡率用千分率表示,而不是百分率。
此外,李婷教授認(rèn)為,它還混淆了“累計(jì)死亡比例”與“年死亡率”的定義。
中國(guó)人民大學(xué)人口與健康學(xué)院教授 李婷:死亡率數(shù)值比較小,一般是千分之幾,不可能高到5%的水平,“每20個(gè)80后中1人已離世”描述的是累積的死亡比例。
錯(cuò)誤死亡率源頭可能為“AI運(yùn)算偏差”
這一聳人聽(tīng)聞?dòng)致┒窗俪龅乃劳雎蕯?shù)據(jù)又是從何而來(lái)呢?中國(guó)人民大學(xué)人口與健康學(xué)院教授李婷梳理發(fā)現(xiàn),很有可能是AI大模型在問(wèn)題回答過(guò)程中出現(xiàn)錯(cuò)誤。
李婷教授在AI大模型中輸入了“50、60、70、80,這幾代人的死亡率分別是多少”的問(wèn)題,大模型顯示,根據(jù)網(wǎng)絡(luò)信息得出了“80后現(xiàn)存2.12億,存活率94.8%,死亡率5.2%”的表述。
中國(guó)人民大學(xué)人口與健康學(xué)院教授 李婷:這其實(shí)依賴于訓(xùn)練AI的語(yǔ)料。死亡率、累計(jì)死亡概率這些概念是相對(duì)很專業(yè)的,可能普通人都不會(huì)去理解??傮w來(lái)說(shuō)是一個(gè)相對(duì)冷門的知識(shí)點(diǎn),因?yàn)樗皇窃谌粘4罅渴褂玫脑捳Z(yǔ)中,可能語(yǔ)料的質(zhì)量不夠高。
對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)法學(xué)院教授 博士生導(dǎo)師 張欣:“大模型幻覺(jué)”本身一個(gè)最重要的原因還是它的這個(gè)Transformer(編碼和解碼)的架構(gòu),現(xiàn)在大部分大模型都是使用這樣的一個(gè)架構(gòu)。這個(gè)架構(gòu),本質(zhì)上來(lái)講,其實(shí)還是基于統(tǒng)計(jì)的,或者說(shuō)基于隨機(jī)性的這樣的一個(gè)概率生成,所以其實(shí)不管你是用什么樣的、哪家的大模型,它的本質(zhì)上都是預(yù)測(cè)下一個(gè)字詞最有可能出現(xiàn)的概率生成的這樣的一個(gè)情況。
記者就發(fā)現(xiàn),經(jīng)過(guò)網(wǎng)絡(luò)發(fā)酵,死亡率竟然成為一些自媒體帶貨的噱頭。
可見(jiàn),AI大模型雖然有超強(qiáng)的數(shù)據(jù)儲(chǔ)存和運(yùn)算能力,但由于訓(xùn)練的語(yǔ)料不足、數(shù)據(jù)來(lái)源局限等,就可能導(dǎo)致錯(cuò)誤的推算。而一些自媒體為了變現(xiàn)流量,也會(huì)斷章取義、借題發(fā)揮,助長(zhǎng)這些離譜數(shù)據(jù)的炒作和傳播。
?。偱_(tái)央視記者 潘虹旭 馬力 代欽)