唐念根據提示登進伺服器,數據是從74萬篇中醫古籍中採集出來的6.5萬種藥材,裡面有很多別名、錯名、重複等干擾項,需要先刪除重複、冗餘或噪聲數據,再人工標註並對數據進行歸類。
唐念以前做過機器學習方面的比賽,懂得歸類問題的基本步驟,一般先是建立詞彙表,獲取每個詞的embedding,然後使用CNN進行特徵提取,最後挑選算法做二分類。
唐念憑藉多年工作形成的肌肉記憶,搭建了個算法框架,把6.5萬條數據灌進去,結果出來後拿著對照組驗證準確度。
陳知禮從辦公桌前走出,走到她身後,只掃一眼得出結論:「過擬合了,重測。」
「……」
唐念只好刪掉記錄,又重新跑了一遍,陳知禮看一眼,仍不滿意:「我說的重測是讓你換一種算法,不是讓你拿著3000萬美金的GPU在這磨時間,消耗性能,OK?」
「……」
那你一開始說清楚啊!
「還有,你樣本選的有問題,SMOTE得到的增強樣本有誤差,可能已經偏離了原來的語義,大概是文本embedding後距離向量處於高維空間,需要映射到低維再處理。」
唐念沒聽懂,一臉茫然地看著他。
「看我幹什麼,數據增強不會做就去查資料,瞪著一雙大眼只會喘氣嗎?」
他的火氣太明顯,唐念懂了,他根本就不是讓她來幹活的,尋個理由拿她撒氣罷了,所以無論她做什麼都不可能令他滿意。
「你說話就說話,大聲吼什麼,我怕狗叫!」
她最近根本沒得罪他,上課不遲到,文獻也好好翻譯完了,都不知道他在這發的什麼神經。
當然,犯病是不需要理由的。
陳知禮目光忽然移過來,唐念也看著他,四目相對,誰也不服誰。
唐念是娃娃臉的長相,眼睛圓,皮膚奶白,鼻頭微翹,齊劉海蓋住細長的眉,五官精緻得像漫畫裡走出的少女。
此刻她正直勾勾瞪著他,有點奶凶奶凶的。
陳知禮冷淡地回視一眼,眼神嘲諷:「這不是挺會懟嘛。」
「……」
「跟我就能伶牙俐齒,怎麼被別人欺負的時候嘴皮子就沒這麼溜,只會點頭哈腰說對不起了。」
「你跟他道的什麼歉,難道就聽不出來他是在故意找你麻煩?」
「你脾氣越好他就越是得寸進尺,這個道理都不懂?」
雖然他這話說的很不中聽,但似乎是在為她謀不平,唐念還真不需要:「不用你管。」
她坐回電腦前繼續工作,把幾個算法梳理一遍,調參重跑,想早點幹完,早點離開是非之地。
「沒人想管你。」
陳知禮也沒心情和她吵,接了個電話。