WEBの本文ぽいところが含まれている要素みつけるやつ、ある程度までいくとひたすらテストコード(?)作る作業になってきた。手持ちの HTML の URL と要素指定をひたすら繰り返すお仕事ですになってる。でも、これやらないと、今のコードをいじれなくなるのよな。
自分用だからサイトの偏りはあるけれど、データベースの ID 上では 5500 くらいやってる。数こなすと、OK な HTML とだめな HTML の傾向とか少しみえたりするわね。.entry-content があったらだいたい本文ぽい。とか。
んで、目標はこっから自分用検索エンジンなりにいきたいなー。
The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!
自分用だからサイトの偏りはあるけれど、データベースの ID 上では 5500 くらいやってる。数こなすと、OK な HTML とだめな HTML の傾向とか少しみえたりするわね。
.entry-content があったらだいたい本文ぽい。とか。