Google: add support for dainuzodziai.lt

This commit is contained in:
Šarūnas Nejus 2024-10-26 17:31:48 +01:00
parent 858c13558c
commit 39c479fcab
No known key found for this signature in database
GPG key ID: DD28F6704DBE3435
2 changed files with 26 additions and 2 deletions

View file

@ -457,7 +457,9 @@ class Html:
#: (paroles.net, sweetslyrics.com, lacoccinelle.net)
merge_lines = partial(re.compile(r"</p>\s+<p[^>]*>(?!___)").sub, "\n")
#: remove empty divs (lacoccinelle.net)
remove_empty_divs = partial(re.compile(r"<div[^>]*>\s*</div>").sub, "")
remove_empty_tags = partial(
re.compile(r"(<(div|span)[^>]*>\s*</\2>)").sub, ""
)
#: remove Google Ads tags (musica.com)
remove_aside = partial(re.compile("<aside .+?</aside>").sub, "")
#: remove adslot-Content_1 div from the lyrics text (paroles.net)
@ -481,7 +483,7 @@ class Html:
@classmethod
def merge_paragraphs(cls, text: str) -> str:
return cls.merge_blocks(cls.merge_lines(cls.remove_empty_divs(text)))
return cls.merge_blocks(cls.merge_lines(cls.remove_empty_tags(text)))
class SoupMixin:
@ -650,6 +652,7 @@ class Google(SearchBackend):
paroles(\ et\ traduction|\ de\ chanson)?
| letras?(\ de)?
| liedtexte
| dainų\ žodžiai
| original\ song\ full\ text\.
| official
| 20[12]\d\ version

View file

@ -147,6 +147,27 @@ lyrics_pages = [
""",
url_title="The Beatles Lady Madonna lyrics",
),
LyricsPage.make(
"https://www.dainuzodziai.lt/m/mergaites-nori-mylet-atlanta/",
"""
Jos nesuspėja skriet paskui vėją
Bangos į krantą grąžina jas vėl
Jos karštą saulę paliesti norėjo
Ant kranto palikę visas negandas
Bet jos nori mylėt
Jos nenori liūdėt
Leisk mergaitėms mylėt
Kaip jos moka mylėt
Koks vakaras šiltas ir nieko nestinga
Veidus apšviečia žaisminga šviesa
Jos buvo laimingos prie jūros kur liko
Tik vėjas išmokęs visas dainas
""",
artist="Atlanta",
track_title="Mergaitės Nori Mylėt",
url_title="Mergaitės nori mylėt Atlanta | Dainų Žodžiai",
),
LyricsPage.make(
"https://genius.com/The-beatles-lady-madonna-lyrics",
"""