Show newer

HTML チェック中に見つけた。
ぱっと見、PC-Talker と NVDA と iOS の VoiceOver ってとこか。

日本視覚障害者ICTネットワーク 第1回支援技術利用状況調査報告書
jbict.net/survey/at-survey-01

今日は外気温がぜんぜん下がらんなー

んで、目標はこっから自分用検索エンジンなりにいきたいなー。

Show thread

自分用だからサイトの偏りはあるけれど、データベースの ID 上では 5500 くらいやってる。数こなすと、OK な HTML とだめな HTML の傾向とか少しみえたりするわね。
.entry-content があったらだいたい本文ぽい。とか。

Show thread

WEBの本文ぽいところが含まれている要素みつけるやつ、ある程度までいくとひたすらテストコード(?)作る作業になってきた。手持ちの HTML の URL と要素指定をひたすら繰り返すお仕事ですになってる。
でも、これやらないと、今のコードをいじれなくなるのよな。

サーバ再起動したら一部ネットワークが死んでて、なんでだろと思ったら、nftables の設定を間違って保存してたため、nftables 自体が起動してなかった=ルーティングしてない状態だった。
きっと前回ごにょったときに変なタイミングでセーブしたんだと思う。
気をつけよ。

いきなりサーバーかたまった。

今日親指が痛い。なんでかとおもったらもしかして昨日久々にピアノ弾いたからか? サボりすぎたか。
いたい。

HTML 本文、テキスト長ベースで判別すると span 山盛りなサイトでだめか。

fastly.com/jp/blog/summary-of-

HTML の本文抽出って、ステルスゲームを攻略するのに似てる気がしてきた。ちょっと直してはテストして、失敗すると、以前 OK だったやつが NG になったりする。んで、何をやったら両方 OK かを探す感じ。

deno.land つながらん。Docker 内の deno で 毎回ライブラリダウンロードしてるやつが動かない。persistence volume にしとくべきなのかなー

HTML の本文抽出というか、本文を含んでいる要素の抽出をやってる。楽しい。

やり方を知らないものを、trial + error でやるの、どんどんコードがぐっちゃぐちゃになって、わたしだめだ〜、ってなるけど。

HTML の本文抽出試してる。NHK のサイトの HTML がやりづらい。

最後にゴミ掃除するのにクラス名だカスタムデータ属性だ ARIA 属性だは使うかもだけど。

Show thread

Puppeteer がそれなりに動いたようなんで、HTMl の本文っぽいとこを抽出しようとトライ。できればクラス名に頼らずで。
リンクの文字数と、りんくじゃない文字数をゴニョゴニョすると、それなりにとれるてる気がする。

以前はできなかったけど、今はわかる or できる って思えるときは書いてて楽しいー

Show thread
Show older
Mastodon

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!