Skip to content

Incomplete Hindi/Eng Text Normalization for Numerals, Scientific Notation, and Code-Mixed Terms #1

@sachin7695

Description

@sachin7695

Thanks for the repo and contribution towards building a robust normalizer, however while experimenting i found out couple of issues and i have mentioned here efforts around them will make it even better i beileve!!
Test case -1

input text
प्रयोग 7.7 में, 7-stage pipeline ने 7,777 signals को 7.07 GHz पर process किया, जहाँ signal-7 ने π = 3.141592653589793 को तीन बार repeat किया—3.141592653589793, 3.141592653589793, 3.141592653589793—और 10⁻⁷ seconds बाद system failure हुआ क्योंकि Kirchhoff's current law और Kirchhoff's voltage law को simultaneously violate करने पर 64-bit, 32-bit और 16-bit registers में 1,000,001 + 1,000,001 + 1,000,001 का overflow detect हुआ।

output text with hindi language
प्रयोग सात दशमलव सात में , सात-stage pipeline ने सात कॉमा सात सौ सतहत्तर signals को सात दशमलव शून्य सात गीगाहर्ट्ज़ पर process किया , जहाँ signal-सात ने π बराबर तीन दशमलव एक चार एक पाँच नौ दो छह पाँच तीन पाँच आठ नौ सात नौ तीन को तीन बार repeat किया—3 . चौदह नील पंद्रह खरब बानबे अरब पैंसठ करोड़ पैंतीस लाख नवासी हज़ार सात सौ तिरानबे कॉमा तीन दशमलव एक चार एक पाँच नौ दो छह पाँच तीन पाँच आठ नौ सात नौ तीन , 3.141592653589793—और 10⁻⁷ seconds बाद system failure हुआ क्योंकि Kirchhoff's current law और Kirchhoff's voltage law को simultaneously violate करने पर चौंसठ-bit , बत्तीस-bit और सोलह-bit registers में 1,000,001 प्लस 1,000,001 प्लस 1,000,001 का overflow detect हुआ ।

ideal output i was expecting
प्रयोग सात दशमलव सात में, सेवन-स्टेज पाइपलाइन ने सात हज़ार सात सौ सतहत्तर सिग्नल्स को सेवन पॉइंट ज़ीरो सेवन गीगाहर्ट्ज़ पर प्रोसेस किया, जहाँ सिग्नल सेवन ने पाई, यानी तीन दशमलव एक चार एक पाँच नौ दो छह पाँच तीन पाँच आठ नौ सात नौ तीन, को तीन बार रिपीट किया ... तीन दशमलव एक चार एक पाँच नौ दो छह पाँच तीन पाँच आठ नौ सात नौ तीन, तीन दशमलव एक चार एक पाँच नौ दो छह पाँच तीन पाँच आठ नौ सात नौ तीन, और तीन दशमलव एक चार एक पाँच नौ दो छह पाँच तीन पाँच आठ नौ सात नौ तीन, और दस की घात माइनस सात सेकंड बाद सिस्टम फेल्योर हुआ क्योंकि किर्खॉफ्स करंट लॉ और किर्खॉफ्स वोल्टेज लॉ को सिमल्टेनियसली वॉयलेट करने पर सिक्स्टी-फोर बिट, थर्टी-टू बिट और सिक्स्टीन बिट रजिस्टरों में दस लाख एक प्लस दस लाख एक प्लस दस लाख एक का ओवरफ्लो डिटेक्ट हुआ।

Test case 02

input text
10–12% YoY growth, EMI @ 8.75%,14:35 IST, Q3 FY24, w.e.f. 01.01.2024

output text
ten– twelve percent YoY growth, EMI at eight point seven five percent, fourteen thirty five IST, Q three FY twenty four, w.e.f. january first twenty twenty four

Test case 03
text_math = "(3 + 5) * x^2"
output :
(three plus five) asterisk x squared
ideal case would be-
"open bracket three plus five close bracket times x squared"

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions