Show newer

HTML の本文抽出つくってるやつ、機能はなんとなく OK だけど、場当たり対処しまくりのソースコードが腐ってるでそろそろなんとかしたい。
でも、まだ、どうやって整理するのがスマートかがわからない。

HTML の書き方っていろいろあるのね。header, footer, div#main な順番でくるとは思わなかった。
遊びでやってるから楽しめる。

HTML チェック中に見つけた。
ぱっと見、PC-Talker と NVDA と iOS の VoiceOver ってとこか。

日本視覚障害者ICTネットワーク 第1回支援技術利用状況調査報告書
jbict.net/survey/at-survey-01

今日は外気温がぜんぜん下がらんなー

んで、目標はこっから自分用検索エンジンなりにいきたいなー。

Show thread

自分用だからサイトの偏りはあるけれど、データベースの ID 上では 5500 くらいやってる。数こなすと、OK な HTML とだめな HTML の傾向とか少しみえたりするわね。
.entry-content があったらだいたい本文ぽい。とか。

Show thread

WEBの本文ぽいところが含まれている要素みつけるやつ、ある程度までいくとひたすらテストコード(?)作る作業になってきた。手持ちの HTML の URL と要素指定をひたすら繰り返すお仕事ですになってる。
でも、これやらないと、今のコードをいじれなくなるのよな。

サーバ再起動したら一部ネットワークが死んでて、なんでだろと思ったら、nftables の設定を間違って保存してたため、nftables 自体が起動してなかった=ルーティングしてない状態だった。
きっと前回ごにょったときに変なタイミングでセーブしたんだと思う。
気をつけよ。

いきなりサーバーかたまった。

今日親指が痛い。なんでかとおもったらもしかして昨日久々にピアノ弾いたからか? サボりすぎたか。
いたい。

HTML 本文、テキスト長ベースで判別すると span 山盛りなサイトでだめか。

fastly.com/jp/blog/summary-of-

HTML の本文抽出って、ステルスゲームを攻略するのに似てる気がしてきた。ちょっと直してはテストして、失敗すると、以前 OK だったやつが NG になったりする。んで、何をやったら両方 OK かを探す感じ。

deno.land つながらん。Docker 内の deno で 毎回ライブラリダウンロードしてるやつが動かない。persistence volume にしとくべきなのかなー

HTML の本文抽出というか、本文を含んでいる要素の抽出をやってる。楽しい。

やり方を知らないものを、trial + error でやるの、どんどんコードがぐっちゃぐちゃになって、わたしだめだ〜、ってなるけど。

HTML の本文抽出試してる。NHK のサイトの HTML がやりづらい。

最後にゴミ掃除するのにクラス名だカスタムデータ属性だ ARIA 属性だは使うかもだけど。

Show thread
Show older
Mastodon

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!