発言駆動日記

何事も発言駆動な日記。HDD

続・Webの新聞をスクレイピングのターゲットに

前回の記事では取得したhtmlを自分で強引に加工してしまっていたのですが。。。

今回は、nekoHTMLを使用してかなりすっきり書くことができました。


結果

0: 三菱重工、客船に空気潤滑システム−泡の力で燃費向上
1: 軸受各社、EV技術競いインホイールモーター開発加速
2: 新東工業、鋳造工場の節電指南−設備の改修を提案
3: NTTPC、社内サーバ3000台節電−CPUの能力制御
4: 日産、情報システム投資再始動−新興国拡大策と歩調
5: NECとGSユアサ、リチウムイオン電池で協業
6: 熊谷組、CO2減へ工事現場用車両に省燃費ナビ導入
7: 日本環境調査研、除染水の凝集沈殿剤を福島などに投入
8: ファミマ、牧場支援へ福島牛を一頭買いを開始
9: 金相場見通し、通年平均1690ドルで推移−上昇続く
10: 京大、CO2原料に「安息香酸」の直接合成に成功
11: 新潟県、EVへの改良に補助金−需要喚起を期待
12: 近畿大、セシウム99%取り除く漆喰材料を開発
13: 酸化ストレス抑制たんぱく質、がん転移を促進
14: 次世代環境地域構想、会津で始動−再生エネ“地産地消”へ


参考記事(ほぼそのまま)
Groovyでスクレイピングしてみる(NekoHTML編) - No Programming, No Life
Groovy/NekoHTML でパース(読み込み)時にエンコーディング指定 - 再発明日記