links|大西洋上只有300人的孤島,卻藏著地球最震撼的火山奇觀
作者|葉遠(yuǎn)風(fēng)
在文件資源管理器地址欄輸入關(guān)鍵詞,按下回車后,系統(tǒng)開始了漫長的掃描過程,硬盤被“仔仔細(xì)細(xì)”一個(gè)個(gè)文件進(jìn)行比照,然后慢吞吞把結(jié)果展示出來,只能等待,著急又無可奈何……
這是很多人使用PC端本地搜索時(shí)面臨的常態(tài)。
這肯定是不正常的,但長久以來,從操作系統(tǒng)廠商,到應(yīng)用開發(fā)者,再到千千萬萬的普通用戶,都這么“湊合”地過著。
現(xiàn)在,有人站出來想要解決這個(gè)問題。
最近,騰訊電腦管家升級(jí)了本地搜索的新功能,試圖幫助PC端的用戶更好地進(jìn)行本地搜索——這個(gè)“不起眼”而又是打工人頻繁接觸的地方,終于有人開始關(guān)心起來。
PC本地搜索“剪刀差”越來越大,卻深陷“技術(shù)漠視”
當(dāng)前,PC本地搜索實(shí)質(zhì)上形成了一個(gè)能力與需求的“剪刀差”,且有不斷增大的趨勢(shì):
一邊,是很多用戶的PC配置并沒有想象的高,例如Win11已經(jīng)面世多年,但Win10仍然占據(jù)著主要的市場份額,占比接近7成,這其中舊款電腦預(yù)裝win10沒有進(jìn)行升級(jí)是主要原因;
另一邊,全面數(shù)字化時(shí)代,普通用戶日常工作生活積累的數(shù)據(jù)量變得越來越大(日積月累的文檔、越來越高清的照片等等),本地搜索對(duì)電腦性能的壓力又變得越來越大。
這就需要一個(gè)產(chǎn)品,能夠在滿足需求的同時(shí)契合大部分用戶的硬件能力。然而,大環(huán)境上來看,整個(gè)PC應(yīng)用發(fā)展所面臨令人無奈的“技術(shù)漠視”現(xiàn)象,也即,明明已經(jīng)有很多人看到了問題但沒有人去采取行動(dòng)解決(個(gè)中原因說來話長,但客觀結(jié)果已經(jīng)注定),過去并沒有人來做這樣一件事。
在手機(jī)這些移動(dòng)終端上,一旦出現(xiàn)卡頓、體驗(yàn)差,操作系統(tǒng)廠商、應(yīng)用廠商們會(huì)想方設(shè)法優(yōu)化、提升,并適應(yīng)盡可能多的機(jī)器型號(hào)。而在PC上,出現(xiàn)包括搜索在內(nèi)的體驗(yàn)問題,很多人第一反應(yīng)是:怎么不去換個(gè)新電腦,提高一下配置(如裝高速固態(tài)硬盤)?而沒有人去質(zhì)問:為何都2025年了,到處都是“用戶至上”的理念,PC端卻還在逼著用戶去改變?
對(duì)本地搜索的慢、卡,業(yè)界似乎已經(jīng)“集體麻木”。
正是這個(gè)時(shí)候,騰訊電腦管家站了出來。
告別暴力窮舉、邁向智能導(dǎo)航,PC本地搜索體驗(yàn)再進(jìn)化
騰訊電腦管家在做的,就是用技術(shù)創(chuàng)新消弭“剪刀差”,讓更多PC端用戶能夠很好地利用本地搜索實(shí)現(xiàn)自己的檢索需求。
這首先表現(xiàn)在有限資源下實(shí)現(xiàn)資源效率最大化。
騰訊電腦管家的本地搜索是基于NTFS文件系統(tǒng),直接解析NTFS文件系統(tǒng)中的主文件表(MFT)(這是一個(gè)完整記錄了本地所有文件的基礎(chǔ)信息的隱藏文件),獲取包括文件名、大小、修改時(shí)間等元數(shù)據(jù)。
傳統(tǒng)操作系統(tǒng)搜索采用的是遞歸遍歷磁盤方式,通俗說就如同查戶口一家一家去敲門、找到了才算。而騰訊電腦管家的方式,是直接讀取硬盤系統(tǒng)(NTFS)內(nèi)部記錄所有文件信息的“總戶口本”(MFT),瞬間知道所有文件在哪、叫啥名。
這是一種底層解析方式,能夠大幅提升索引的速度和準(zhǔn)確性,同時(shí)降低系統(tǒng)資源消耗。
這種方式,也附帶解決了文件實(shí)時(shí)變更感知的問題。
在傳統(tǒng)搜索中,如果文件發(fā)生了刪改,則需要過一段時(shí)間或者下次全盤掃才能發(fā)現(xiàn),即時(shí)性、準(zhǔn)確性不足。而騰訊電腦管家充分利用了NTFS的UsnJrnl(文件變更日志)實(shí)現(xiàn)對(duì)文件增刪改等操作的實(shí)時(shí)感知,能夠?qū)崟r(shí)捕獲增刪改事件,避免全盤掃描的資源浪費(fèi),索引更新零延遲,確保搜索結(jié)果實(shí)時(shí)性。
這就好比系統(tǒng)有一個(gè)自帶的“變更小本本”(UsnJrnl),而騰訊電腦管家一直盯著“小本本”看,索引瞬間更新,搜出來的結(jié)果永遠(yuǎn)是最新的。
除了方式上的創(chuàng)新,在能力上,騰訊電腦管家也在幫助用戶挖掘PC的潛力。
當(dāng)下的PC端處理器都為多核處理器,多核協(xié)同能力是很多PC應(yīng)用重點(diǎn)發(fā)力的方向(例如3A游戲提升多核性能降低對(duì)顯卡的需求)。騰訊電腦管家同樣如此,其在文件搜索環(huán)節(jié)創(chuàng)新采用多線程并發(fā)檢索機(jī)制,針對(duì)不同磁盤分區(qū)分配獨(dú)立線程,充分利用多核CPU資源——“人多力量大”,同時(shí)派好幾個(gè)“線程小工”去不同的區(qū)域找資料,這無疑能提升大規(guī)模文件檢索效率,深層目錄/大文件夾場景響應(yīng)也會(huì)更快。
那種傳統(tǒng)搜索“一核工作,多核圍觀”的情況在這里不會(huì)再有。
由此,通過底層原生解析、實(shí)時(shí)變更感知、多線程優(yōu)化等創(chuàng)新技術(shù)手段,騰訊電腦管家解決了傳統(tǒng)文件檢索方案在性能、實(shí)時(shí)性和資源占用等方面的痛點(diǎn),具備明顯的技術(shù)領(lǐng)先性和行業(yè)影響力。
值得一提的是,騰訊電腦管家這套產(chǎn)品架構(gòu)設(shè)計(jì)有良好的開放性和可擴(kuò)展性,可以內(nèi)嵌到很多其他應(yīng)用當(dāng)中,目前其甚至對(duì)外提供有SDK供第三方使用。
而不止于搜索性能的提升,騰訊電腦管家還著手解決PC用戶在搜索體驗(yàn)上的一些深度需求,這使得其能夠成功區(qū)別于Everything等常用的單一功能搜索軟件,具備更多創(chuàng)新價(jià)值。
這主要表現(xiàn)在三個(gè)方面。
1、隨意搜
很多用戶在搜索時(shí),只記得文件名的一部分,寫不全,或者有特殊的關(guān)鍵詞匹配需求,傳統(tǒng)搜索的準(zhǔn)確率不佳。
騰訊電腦管家讓用戶能夠隨心所欲“花樣搜”:支持模糊匹配(記不全也能搜)、前綴匹配(輸入開頭就行)、甚至正則表達(dá)式(高級(jí)用戶),還能智能處理中英文混輸、特殊符號(hào),例如輸入“2024報(bào)告”可能找到“2024年度總結(jié)報(bào)告.docx”,從而減少無效匹配,提升復(fù)雜關(guān)鍵詞的搜索準(zhǔn)確率與速度。
2、內(nèi)容深入搜
用戶往往不滿足只搜索文件名,需要進(jìn)行文件內(nèi)容的深入、精確搜索。騰訊電腦管家的本地搜索支持多種文檔內(nèi)容全文檢索精準(zhǔn),支持模糊匹配與多關(guān)鍵詞組合。
這其中牽扯很多細(xì)節(jié)技術(shù)。
首先是如何對(duì)文檔內(nèi)容進(jìn)行解析。這方面騰訊電腦管家在內(nèi)容索引階段使用IFilter接口和自研的XML解析模塊,能夠自動(dòng)解析并提取常見文檔格式(如PDF、Word、PPT、Excel等)的文本內(nèi)容,極大提升了多格式文檔的兼容性和解析效率。
解析后,是如何進(jìn)行索引。騰訊電腦管家采用jieba分詞算法進(jìn)行高效分詞,并對(duì)分詞結(jié)果進(jìn)行去重處理,形成“文檔-詞列表”的對(duì)應(yīng)關(guān)系集合,隨后,系統(tǒng)基于分詞結(jié)果反向建立“分詞-文檔列表”的倒排索引結(jié)構(gòu)。
這等于自己構(gòu)建了一個(gè)“關(guān)鍵詞地圖”,當(dāng)用戶搜索文檔內(nèi)容時(shí),直接“查地圖”就能瞬間找到所有相關(guān)文檔,不用再挨個(gè)打開文件去讀,速度極快,不僅提升了檢索性能,還顯著降低了系統(tǒng)資源消耗。
3、多模態(tài)搜
用戶日常需要搜索的內(nèi)容早已不只有文檔,各類圖片份額越來越大,一些創(chuàng)作類用戶可能日常主要需要的就是搜索圖片。
騰訊電腦管家在這方面支持內(nèi)容/人臉/OCR多維度搜索,如人臉聚類自動(dòng)歸檔、OCR提取圖中文字等。
在AI模型的幫助下,騰訊電腦管家能夠識(shí)別圖片里有什么東西(物品分類,預(yù)訓(xùn)練模型識(shí)別內(nèi)容)、是誰(人臉識(shí)別聚類,通過5點(diǎn)校正+特征向量提取+HDBSCAN聚類技術(shù))、甚至圖片里的文字(飛槳開源模型,OCR文字識(shí)別)。
如此,用戶就能搜“貓的照片”、“張三的照片”、“包含‘發(fā)票’文字的截圖”等等,多種模態(tài)搜索更加隨心所欲。
當(dāng)然,這些創(chuàng)新背后還離不開騰訊電腦管家在文檔分類方面的技術(shù)探索,目前其已經(jīng)形成“快速瀏覽內(nèi)容-提取特征關(guān)鍵詞-關(guān)鍵詞云端AI大模型分析-智能判斷文檔類型”的智能文檔歸類過程,幫助提升檢索效率和質(zhì)量。
總而言之,在一系列技術(shù)創(chuàng)新下,騰訊電腦管家讓本地搜索徹底告別暴力窮舉,而正在成為用戶PC端上的智能導(dǎo)航,體驗(yàn)得到了極大提升。
與數(shù)據(jù)親密接觸,隱私安全是最后一道關(guān)卡
任何技術(shù)創(chuàng)新除了解決舊有痛點(diǎn),很多時(shí)候也引發(fā)新的擔(dān)憂,例如大模型的應(yīng)用就帶來隱私安全的擔(dān)憂。
與用戶數(shù)據(jù)親密接觸,搜文檔內(nèi)容、識(shí)別圖片人臉,這些功能聽著好用,但一些用戶可能會(huì)擔(dān)心應(yīng)用把私人文件內(nèi)容都上傳到服務(wù)器。而在騰訊電腦管家這里,這種擔(dān)心可以完全放下。
在提升搜索體驗(yàn)的同時(shí),騰訊電腦管家對(duì)用戶隱私安全也有完備的保障:
1、數(shù)據(jù)本地化處理——“活都在家干”,文件內(nèi)容解析、圖片人臉識(shí)別/OCR、文檔特征提取均在設(shè)備端完成,原始數(shù)據(jù)不上傳云端。
2、最小化數(shù)據(jù)傳輸——“只傳紙條不傳原件”,只有文檔智能分類這一步需要用到云端大模型,但上傳的不是文檔原文,而是電腦本地提取出來的幾個(gè)關(guān)鍵詞和文件名。
3、免第三方依賴——“不依賴外人”,文件索引的核心(讀MFT和UsnJrnl)直接用Windows系統(tǒng)自帶的機(jī)制,不依賴可能有風(fēng)險(xiǎn)的第三方軟件庫。
可以說,騰訊電腦管家既讓用戶找文件快如閃電(底層讀取+實(shí)時(shí)更新+多核并行),又讓用戶搜得又全又準(zhǔn)(文件名花樣搜+文檔內(nèi)容挖得深+圖片看得懂),在整理文件上也更智能(AI幫忙分類),而最關(guān)鍵的是,做這些事的時(shí)候用戶的隱私文件安全有保障(關(guān)鍵操作本地做,敏感內(nèi)容不上傳)。
如此,用戶在電腦上找資料時(shí)遇到的煩心事都被考慮到,并且用技術(shù)手段進(jìn)行解決。PC應(yīng)用,也可以大膽談?dòng)脩趔w驗(yàn)了。
*本文圖片均來源于網(wǎng)絡(luò)
汽車安全氣囊更換操作步驟
奔馳與奧迪安全氣囊拆裝與保養(yǎng)要點(diǎn)指南
汽車方向盤安全氣囊的拆卸方法