社會(huì)性人物搜索研究:人的社會(huì)性本質(zhì)
發(fā)布時(shí)間:2020-03-07 來(lái)源: 美文摘抄 點(diǎn)擊:
[摘要]分析社會(huì)搜索和社會(huì)性人物搜索的相關(guān)研究,給出人物搜索和社會(huì)性人物搜索的定義、特點(diǎn)及一般流程,對(duì)近年來(lái)社會(huì)性人物搜索的熱點(diǎn)事件分析,基于上述研究,進(jìn)一步給出社會(huì)搜索的過(guò)程框架和工具軟件,并完成第一階段的軟件開(kāi)發(fā),發(fā)布了ROST系列社會(huì)性人物搜索工具。
[關(guān)鍵詞]社會(huì)搜索 人肉搜索 ROST 情報(bào)分析 社會(huì)計(jì)算
[分類(lèi)號(hào)]TP393
1 研究背景
社會(huì)性搜索引擎由提問(wèn)者提出搜索目標(biāo),通過(guò)某種激勵(lì)機(jī)制來(lái)發(fā)起其他的網(wǎng)友對(duì)其進(jìn)行回答,沉淀的知識(shí)形式是針對(duì)問(wèn)題的答案,本質(zhì)是一個(gè)互動(dòng)問(wèn)答平臺(tái),讓人與人之間就各種知識(shí)或問(wèn)題進(jìn)行溝通,鼓勵(lì)更多的人參與互助,英文譯為Social Search Engine。2007―2008年間共有約29篇英文文獻(xiàn)討論社會(huì)性搜索問(wèn)題,主要分布于計(jì)算機(jī)、情報(bào)學(xué)、圖書(shū)館學(xué)、教育技術(shù)、互聯(lián)網(wǎng)科學(xué)等領(lǐng)域,D Bottazzi談到語(yǔ)義中間件將應(yīng)用于普適環(huán)境的社會(huì)網(wǎng)絡(luò)中,社會(huì)搜索將變得至關(guān)重要;T Yamakami討論了移動(dòng)Web2.0如何從利用社會(huì)搜索傳統(tǒng)Web以及移動(dòng)環(huán)境吸取新的創(chuàng)新動(dòng)力;KF White主要談到了利用社會(huì)性搜索進(jìn)行跨組織的知識(shí)共享問(wèn)題;s Bao研究了利用社會(huì)標(biāo)注改進(jìn)搜索引擎效果;M Dalai研究了個(gè)性化社會(huì)性協(xié)同搜索;EH Chi和P Pirolli研究了社會(huì)信息獲取和社會(huì)搜索的關(guān)系;Jason Calacanis推出Mahalo,其全部搜索結(jié)果都是編輯手工挑選產(chǎn)生;Google張智威認(rèn)為社區(qū)是下一代搜索技術(shù)的曙光;Marissa認(rèn)為未來(lái)搜索引擎將會(huì)共用自動(dòng)化和人工勞動(dòng)。在韓國(guó)Naver互動(dòng)問(wèn)答平臺(tái)已占據(jù)77%搜索引擎市場(chǎng),而Google只有2%,國(guó)內(nèi)與之類(lèi)似的有新浪愛(ài)問(wèn)、天涯問(wèn)答、百度知道和雅虎知識(shí)堂。
在社會(huì)搜索中存在一種特殊的搜索形式,即社會(huì)性人物搜索,俗稱(chēng)人肉搜索。人肉搜索引擎是指利用人工參與來(lái)提純搜索引擎返回信息的一種機(jī)制。人肉搜索的理論本質(zhì)是依據(jù)網(wǎng)絡(luò)跨媒體素材獲得少量的人物信息特征,不斷調(diào)整搜索策略迭代搜索,最終獲得搜索對(duì)象的全部真實(shí)人物信息的包含信息分析的復(fù)雜檢索過(guò)程,英文一般譯為Human Search。
社會(huì)性人物搜索誕生于2001年的貓撲論壇,2004年“銅須門(mén)事件”進(jìn)入大眾的視野,“社會(huì)性人物搜索”是2007年的年度熱詞之一,“姜巖事件”將社會(huì)性人物搜索推到了前所未有的高度,從Google Trends的搜索趨勢(shì)可以看出,目前每天社會(huì)性人物搜索量達(dá)到4000次,而2007年僅有200次/日。從社會(huì)學(xué)角度看社會(huì)性人物搜索存在程序正義、侵犯隱私權(quán)等問(wèn)題,存在一個(gè)政府不斷改善監(jiān)管調(diào)控和網(wǎng)民自組織涌現(xiàn)的過(guò)程,隨著網(wǎng)絡(luò)公民搜索意識(shí)的進(jìn)一步增強(qiáng),社會(huì)性人物搜索將會(huì)逐漸走向完善,并將最終發(fā)展成有效的輿論監(jiān)督工具,并進(jìn)一步進(jìn)入門(mén)戶(hù)網(wǎng)站。大規(guī)模社會(huì)性人物搜索是中國(guó)獨(dú)有的網(wǎng)絡(luò)現(xiàn)象,國(guó)外只有小規(guī)模類(lèi)似應(yīng)用,目前未見(jiàn)理論文獻(xiàn)對(duì)該問(wèn)題進(jìn)行研究,因此筆者準(zhǔn)備就以上問(wèn)題展開(kāi)論述。
2 定義、產(chǎn)生原因及特點(diǎn)
筆者把社會(huì)搜索分為兩種類(lèi)型:一種叫作服務(wù)器端社會(huì)性搜索如Sproose、Mahalo、iRazoo、Bessedt、wikia、百度知道等;一類(lèi)叫作客戶(hù)端社會(huì)性搜索,典型的如由網(wǎng)友發(fā)起的社會(huì)性協(xié)作式人物搜索,傳播范圍是Personal→Group→Public Web→統(tǒng)媒體,在某種程度上,隨著信息豐富性的增加而加大,逐步向更大面積傳播,信息真實(shí)性和傳播面積成一定正比關(guān)系,如圖1所示:
搜索引擎SEO災(zāi)難導(dǎo)致搜索引擎返回網(wǎng)頁(yè)質(zhì)量的直線下降,同時(shí)搜索引擎不能完全解決用戶(hù)的所有問(wèn)題,搜索引擎只是返回網(wǎng)頁(yè),而用戶(hù)需要的是某些具體的相關(guān)性信息,現(xiàn)有搜索引擎技術(shù)還不能在語(yǔ)義層面智能化給用戶(hù)精確回答,因此,機(jī)器搜索結(jié)果還不能替代情報(bào)分析。對(duì)于人物信息精致而準(zhǔn)確的需求導(dǎo)致社會(huì)性人物搜索的出現(xiàn),從這個(gè)角度講,互聯(lián)網(wǎng)的發(fā)展將極大促進(jìn)包含了數(shù)據(jù)挖掘的情報(bào)分析技術(shù)的發(fā)展。
其特點(diǎn)主要有以下方面:
?動(dòng)機(jī)熱點(diǎn)化。整個(gè)社會(huì)性人物搜索發(fā)起一般是由于熱點(diǎn)事件,所以社會(huì)性人物搜索等發(fā)起具有一定門(mén)檻性。未完成社會(huì)性人物搜索時(shí),事件往往在互聯(lián)網(wǎng)中發(fā)酵,一旦完成,該事件才進(jìn)入傳統(tǒng)媒體領(lǐng)域,這是因?yàn)閭鹘y(tǒng)媒體領(lǐng)域本身非常強(qiáng)調(diào)真實(shí)性和可追溯性。有影響的社會(huì)性人物搜索往往發(fā)端于娛樂(lè)事件,和時(shí)事熱點(diǎn)密不可分。
?技術(shù)高級(jí)化。有些信息必須利用高級(jí)的搜索引擎技巧和情報(bào)分析技術(shù)以及社會(huì)網(wǎng)絡(luò)、心理學(xué)成果才能找到,然而這些很難被大多數(shù)的普通用戶(hù)所掌握。由于傳統(tǒng)搜索引擎檢索網(wǎng)頁(yè)的局限性,所以必須查詢(xún)窮盡一切可能的搜索引擎及查詢(xún)手段來(lái)進(jìn)行搜索。在很多時(shí)候還需要對(duì)跨媒體素材中隱含的線索進(jìn)行細(xì)致的梳理,從而構(gòu)造出最終能查詢(xún)到真相的實(shí)施策略。
?行為的社區(qū)化。搜索行為和社交活動(dòng)相結(jié)合,這一變化給個(gè)性化搜索帶來(lái)新的發(fā)展方向。用戶(hù)在搜索過(guò)程,不斷積累社會(huì)關(guān)系,從淺關(guān)系到弱關(guān)系,再到強(qiáng)關(guān)系,構(gòu)建出一個(gè)個(gè)旨趣各異的圈子或者虛擬群,搜索過(guò)程就是人際交往過(guò)程。
?勞動(dòng)密集化。社會(huì)性人物搜索將是一種勞動(dòng)密集型行為,今后將出現(xiàn)大量人工編輯的搜索引擎,每個(gè)編輯只負(fù)責(zé)幾十到一百個(gè)詞條,從而返回高度相關(guān)的檢索網(wǎng)頁(yè)。這些詞條由編輯每天更新索引和決定排序,并且在每個(gè)用戶(hù)查詢(xún)的同時(shí)有若干工作人員為他/她服務(wù),用戶(hù)最后采納了誰(shuí)給出的搜索結(jié)果,誰(shuí)就能獲得報(bào)酬。而檢索次數(shù)較少的檢索詞是以長(zhǎng)尾化形式呈現(xiàn)的,此時(shí)可以采用現(xiàn)有排序算法進(jìn)行相關(guān)性排序。
?虛擬和現(xiàn)實(shí)的滲透性。在互聯(lián)網(wǎng)中有時(shí)并不一定能夠搜索到所有需要信息,此外,如電話號(hào)碼、職位之類(lèi)的易變隱私信息即使檢索到了也是無(wú)效的。這種虛擬和現(xiàn)實(shí)的交互性決定了社會(huì)性人物搜索有時(shí)呈現(xiàn)出一種跨越地域的網(wǎng)友合作調(diào)查形式。
3 社會(huì)性人物搜索流程及案例
利用Google、百度、有道、搜狗、Yahoo、Live Search、迅雷等搜索引擎,不斷調(diào)整搜索策略獲得不同的返回結(jié)果。對(duì)于高學(xué)歷人員,可以搜索文獻(xiàn)資源數(shù)據(jù)庫(kù)中找到他的導(dǎo)師和同學(xué),從畢業(yè)分配辦公室或者校友會(huì)的網(wǎng)頁(yè)上也可找到其畢業(yè)工作情況,而已刪除網(wǎng)頁(yè)可通過(guò)百度快照查詢(xún)。
從被搜索者的社會(huì)網(wǎng)絡(luò)入手,例如其朋友或親人的博客,也可以去校友錄網(wǎng)站去找他的求學(xué)經(jīng)歷,還可以到論壇、在線購(gòu)物、求職網(wǎng)站進(jìn)行搜索,大部分網(wǎng)友都會(huì)注冊(cè)某些論壇。由于人的信息使用慣性,一般會(huì)使用相對(duì)固定的注冊(cè)號(hào)或者郵箱進(jìn)行注冊(cè),所以可以通過(guò)某個(gè)注冊(cè)號(hào),獲得他在一系列網(wǎng)站的情況。在這方面今后將可用展現(xiàn)個(gè)人網(wǎng)絡(luò)活動(dòng)的路線圖軟件輔助搜索。
可通過(guò)論壇或QQ留下的IP查找被搜索者上網(wǎng)地點(diǎn),并且識(shí)別被搜索者的馬甲(泛指同一個(gè)人的不同ID)。可以從注冊(cè)號(hào)的注冊(cè)時(shí)間、習(xí)慣用詞以及活動(dòng)的 相關(guān)性上進(jìn)行猜測(cè)。因此網(wǎng)絡(luò)用戶(hù)真實(shí)身份識(shí)別工具也將逐步出現(xiàn)。
如果知道對(duì)方所在地區(qū),可以利用Google衛(wèi)星地圖、MapABC查到他戶(hù)外照片的確切所在地。還可以結(jié)合現(xiàn)實(shí)的社會(huì)機(jī)構(gòu)進(jìn)行查詢(xún),在不違反法律情況下,可通過(guò)公開(kāi)的銀行、通信服務(wù)商、地產(chǎn)中介、網(wǎng)上商城以及手機(jī)資料庫(kù)查詢(xún)到人物的信息,如電話歸屬地等。
在整個(gè)搜索過(guò)程中最重要的是必須具備一定的邏輯分析能力,整合梳理龐雜信息,整合出可被驗(yàn)證的調(diào)查結(jié)果。其本質(zhì)是利用信息分析技術(shù),充分挖掘社會(huì)網(wǎng)絡(luò),利用社會(huì)網(wǎng)絡(luò)來(lái)搜索,表1是目前已經(jīng)發(fā)生較為著名的社會(huì)性人物搜索的案例分析。
從表1可以看出,社會(huì)性人物搜索呈現(xiàn)出較大的差異性,處在發(fā)展早期,整個(gè)互聯(lián)網(wǎng)都在摸索如何將社會(huì)性人物搜索進(jìn)行完善和改進(jìn),顯現(xiàn)出一定的自發(fā)性和無(wú)序性。
4 ROST社會(huì)性人物搜索過(guò)程框架及工具
依據(jù)前面的案例和理論分析可以給出一個(gè)社會(huì)性人物搜索的整體過(guò)程框架(見(jiàn)圖2),在這個(gè)框架中,利用現(xiàn)有搜索引擎進(jìn)行分析還需要輔以很多手工工作,例如在各個(gè)搜索引擎中的信息集成;靈活調(diào)整的搜索策略;需要盡可能多的相關(guān)搜索詞及搜索策略重寫(xiě)工具,社會(huì)網(wǎng)絡(luò)的深度分析工具,證據(jù)保存軟件;證據(jù)集成和發(fā)布一體化工具,語(yǔ)義性相關(guān)挖掘工具及群發(fā)工具。針對(duì)以上各個(gè)環(huán)節(jié),我們開(kāi)發(fā)了數(shù)款適合社會(huì)性人物搜索的工具。
ROST元搜索引擎解析工具,主要實(shí)現(xiàn)以下功能:針對(duì)Google、百度和Yahoo實(shí)現(xiàn)某個(gè)搜索詞的所有返回結(jié)果結(jié)構(gòu)化,把摘要、鏈接等元組全部解析成一條條的記錄字段,存放在一個(gè)Excel中,自動(dòng)把某個(gè)搜索詞在多個(gè)搜索引擎中的相關(guān)鏈接全部抓取出來(lái),以便進(jìn)行進(jìn)一步的處理。本版本已經(jīng)發(fā)布互聯(lián)網(wǎng)的免費(fèi)版,搜索即可下載。
ROST搜索策略采集和分析系統(tǒng),可以針對(duì)多個(gè)搜索引擎,采集高度相關(guān)的搜索策略候選詞,目前給出的下載文件是一個(gè)高頻1萬(wàn)詞集,152,027句的相關(guān)詞句集。
ROST正文抽取和信息指紋提取工具,針對(duì)某個(gè)網(wǎng)頁(yè)進(jìn)行正文提取,并給出某個(gè)人的語(yǔ)言風(fēng)格。
ROST BlogGroupTools可以采集某個(gè)網(wǎng)站的Blog圈信息,目前已能采集CSDN中所有博客的全部信息,并已成功應(yīng)用到985項(xiàng)目中。
5 結(jié)語(yǔ)
社會(huì)搜索引擎大大降低了進(jìn)入搜索行業(yè)的技術(shù)壁壘,高妙的搜索排序算法也許不如聘請(qǐng)一個(gè)本科水平的專(zhuān)職人員。這種新的搜索模式為發(fā)展中國(guó)家網(wǎng)絡(luò)服務(wù)商進(jìn)入發(fā)達(dá)國(guó)家市場(chǎng)提供了機(jī)會(huì),方式類(lèi)似當(dāng)年印度軟件巨頭靠低成本打入美國(guó)軟件外包市場(chǎng)。對(duì)全球的搜索引擎市場(chǎng)將產(chǎn)生深遠(yuǎn)的影響。我們將在社會(huì)性搜索工具研發(fā)方面進(jìn)行的研究,同時(shí)對(duì)社會(huì)性搜索協(xié)同模式進(jìn)行更加深入的研究。
相關(guān)熱詞搜索:社會(huì)性 人物 研究 社會(huì)性人物搜索研究 人物搜索 搜索人物
熱點(diǎn)文章閱讀