最近意識到:
- google 搜尋上大部分的中文結果都很糟,很多內容農場之外,也有很多就是賣東西的,偶爾可以遇到內容比較好的網站通常 SEO 都不好所以會被埋在第二頁後面。
- 意外發現,其實有時候在 google 搜尋框裡面加上
site:tw,只搜尋網域是 .tw 結尾的網站,就可以相當有效地過濾上述那些無用的內容。 - 不管是中英文的內容,我傾向還是會從幾個固定的「入口網站」去發現其他內容,比如說 Hacker News, Reddit, 聯合新聞網之類的。也就是說,我所看的大部分內容,都是從幾個固定的網站出發的。
- 通常被上述這些入口網站連到的內容都有一些特定屬性,或是有些基本的品質保證。而且我的習慣是到了一個網站會順便看看這個網站上面有什麼其他東西,快速看過之後大概可以判斷這個網站的內容品質。
既然如此,我在想,基於這些特性,或許建造一套自己個人用的搜尋引擎在技術上和算力、儲存空間成本上其實是可行的:
- 既然大部分我會看的內容都是從幾個固定的入口網站去發現,那麼我的爬蟲其實只需要從這幾個固定的網站出發就好了。
- 因為入口網站的數量不會太多,我其實可以手動為每個網站「評分」。也可以為特定的網域評分,比如說 .tw 評分比較高。
- 接下來,應該就可以簡單計算出每一個爬到的頁面的分數,比如說如果有被高分網站連到的網頁就自動增加評分。
- 傳統的搜尋引擎頁面評分標準也一樣納入參考但是降低權重。
其實想了一想,整個構想就只是在搜尋引擎評分機制上面手動加上個人偏好而已。
這個搜尋引擎其實也不需要很厲害,因為如果真的找不到想要的結果,去用 google 就好了。
之前有調查過一套開源的搜尋引擎 YaCy ,之後再看看他能不能做到我想的事情。