ਹੈਂਡਰਾਈਟਿੰਗ ਡੇਟਾਸੈੱਟ

ਤੁਹਾਡੇ ML ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ 15 ਸਰਵੋਤਮ ਓਪਨ-ਸੋਰਸ ਹੈਂਡਰਾਈਟਿੰਗ ਡੇਟਾਸੈੱਟ

ਵਪਾਰਕ ਸੰਸਾਰ ਇੱਕ ਅਸਾਧਾਰਣ ਗਤੀ ਨਾਲ ਬਦਲ ਰਿਹਾ ਹੈ, ਫਿਰ ਵੀ ਇਹ ਡਿਜੀਟਲ ਪਰਿਵਰਤਨ ਲਗਭਗ ਓਨਾ ਵਿਆਪਕ ਨਹੀਂ ਹੈ ਜਿੰਨਾ ਅਸੀਂ ਇਸਨੂੰ ਚਾਹੁੰਦੇ ਹਾਂ। ਵੱਡੀਆਂ ਕਾਰਪੋਰੇਸ਼ਨਾਂ ਤੋਂ ਲੈ ਕੇ ਛੋਟੇ ਪੈਮਾਨੇ ਦੇ ਕਾਰੋਬਾਰਾਂ ਤੱਕ, ਲੋਕ ਅਜੇ ਵੀ ਆਪਣੇ ਰੋਜ਼ਾਨਾ ਦੇ ਕੰਮਕਾਜ ਵਿੱਚ ਭੌਤਿਕ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਸੰਭਾਲ ਰਹੇ ਹਨ। ਹਾਲਾਂਕਿ ਵਰਤੋਂ ਦੀ ਬਾਰੰਬਾਰਤਾ ਕਾਫ਼ੀ ਘੱਟ ਗਈ ਹੈ, ਪਰ ਇਸ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਖਤਮ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਹੈ। ਡਿਜੀਟਲ ਵਰਤੋਂ ਲਈ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਸਕੈਨ ਕਰਨ ਦੀ ਸਮਾਂ ਬਰਬਾਦ ਕਰਨ ਵਾਲੀ ਪ੍ਰਕਿਰਿਆ ਦੀ ਬਜਾਏ, ਨਵੀਨਤਮ ਵਰਤੋਂ OCR ਸਮਾਂ-ਕੁਸ਼ਲ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ।

ਆਪਟੀਕਲ ਅੱਖਰ ਪਛਾਣ ਦੀ ਵਰਤੋਂ ਵਿੱਚ ਵਾਧਾ ਮੁੱਖ ਤੌਰ 'ਤੇ ਆਟੋਮੈਟਿਕ ਮਾਨਤਾ ਪ੍ਰਣਾਲੀਆਂ ਦੇ ਉਤਪਾਦਨ ਵਿੱਚ ਵਾਧੇ ਦੇ ਕਾਰਨ ਮੰਨਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਨਤੀਜੇ ਵਜੋਂ, OCR ਤਕਨਾਲੋਜੀ ਦਾ ਗਲੋਬਲ ਬਾਜ਼ਾਰ ਮੁੱਲ, 'ਤੇ ਪੈੱਗ ਕੀਤਾ ਗਿਆ 8.93 ਅਰਬ $ 2021 ਵਿੱਚ, 15.4 ਅਤੇ 2022 ਦੇ ਵਿਚਕਾਰ 2030% ਦੇ CAGR ਨਾਲ ਵਧਣ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕੀਤੀ ਗਈ ਹੈ।

ਪਰ ਅਸਲ ਵਿੱਚ OCR ਤਕਨਾਲੋਜੀ ਕੀ ਹੈ? ਅਤੇ ਇਹ ਕੁਸ਼ਲ AI ਮਾਡਲਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਵਾਲੇ ਕਾਰੋਬਾਰਾਂ ਲਈ ਗੇਮ ਚੇਂਜਰ ਕਿਉਂ ਹੈ? ਆਓ ਪਤਾ ਕਰੀਏ.

OCR ਕੀ ਹੈ?

ਵਿਕਲਪਿਕ ਤੌਰ 'ਤੇ ਟੈਕਸਟ ਪਛਾਣ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ, OCR ਜਾਂ ਆਪਟੀਕਲ ਅੱਖਰ ਪਛਾਣ ਇੱਕ ਅਜਿਹਾ ਪ੍ਰੋਗਰਾਮ ਹੈ ਜੋ ਸਕੈਨ ਕੀਤੇ ਦਸਤਾਵੇਜ਼ਾਂ, ਸਿਰਫ਼ ਚਿੱਤਰ-ਪੀਡੀਐਫ, ਅਤੇ ਹੱਥ ਲਿਖਤ ਨੋਟਾਂ ਤੋਂ ਮਸ਼ੀਨ-ਪੜ੍ਹਨ ਯੋਗ ਫਾਰਮੈਟ ਵਿੱਚ ਛਾਪੇ ਜਾਂ ਲਿਖਤੀ ਡੇਟਾ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਦਾ ਹੈ। ਸੌਫਟਵੇਅਰ ਚਿੱਤਰ ਤੋਂ ਹਰੇਕ ਅੱਖਰ ਨੂੰ ਕੱਢਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਸ਼ਬਦਾਂ ਅਤੇ ਵਾਕਾਂ ਵਿੱਚ ਜੋੜਦਾ ਹੈ, ਇਸ ਤਰ੍ਹਾਂ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਡਿਜੀਟਲ ਰੂਪ ਵਿੱਚ ਐਕਸੈਸ ਕਰਨਾ ਅਤੇ ਸੰਪਾਦਿਤ ਕਰਨਾ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ।

ਓਪਨ-ਸੋਰਸ ਡੇਟਾਸੈਟ ਕੀ ਹਨ?

ਬਹੁਤ ਸਾਰੀਆਂ ਥਾਵਾਂ ਹਨ ਜਿੱਥੇ OCR ਤਕਨਾਲੋਜੀ ਦਾ ਲਾਭ ਉਠਾਉਣ ਦੀ ਬਹੁਤ ਸੰਭਾਵਨਾ ਹੈ। ਕੁਝ ਸਥਾਨਾਂ ਵਿੱਚ ਹਵਾਈ ਅੱਡਾ, ਈਬੁਕ ਪ੍ਰਕਾਸ਼ਨ, ਇਸ਼ਤਿਹਾਰ, ਬੈਂਕ ਅਤੇ ਸਪਲਾਈ ਚੇਨ ਸਿਸਟਮ ਸ਼ਾਮਲ ਹਨ। ਹਾਲਾਂਕਿ, ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਆਪਣੇ ਉਦੇਸ਼ ਦੀ ਪੂਰਤੀ ਲਈ, ਉਹਨਾਂ ਨੂੰ ਪ੍ਰੋਜੈਕਟ-ਵਿਸ਼ੇਸ਼ 'ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਦੀ ਜ਼ਰੂਰਤ ਹੁੰਦੀ ਹੈ ਆਪਟੀਕਲ ਅੱਖਰ ਪਛਾਣ ਡਾਟਾਸੈੱਟ.

ਐਪਲੀਕੇਸ਼ਨ ਦੀ ਕੁਸ਼ਲਤਾ ਜ਼ਿਆਦਾਤਰ ਡੇਟਾਸੇਟ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਸਿਖਲਾਈ ਵਿਧੀ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਹਾਲਾਂਕਿ, ਗੁਣਵੱਤਾ ਡਿਜ਼ੀਟਲ ਲੱਭਣਾ ਅਤੇ ਹੱਥ ਲਿਖਤ ਡਾਟਾਸੈੱਟ ਐਪਲੀਕੇਸ਼ਨ ਲਈ ਮੁਸ਼ਕਲ ਹੈ. ਇਸ ਲਈ, ਬਹੁਤ ਸਾਰੀਆਂ ਕੰਪਨੀਆਂ ਮਲਕੀਅਤਾਂ ਦੀ ਬਜਾਏ ਓਪਨ-ਸੋਰਸ ਜਾਂ ਮੁਫਤ-ਟੂ-ਵਰਤਣ ਵਾਲੇ ਡੇਟਾਸੇਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ।

ਓਪਨ-ਸਰੋਤ ਡੇਟਾਸੈਟਾਂ ਦੇ ਲਾਭ ਅਤੇ ਚੁਣੌਤੀਆਂ

ਕਾਰੋਬਾਰਾਂ ਨੂੰ ਇਹ ਸਮਝਣ ਲਈ ਇੱਕ ਦੂਜੇ ਦੇ ਵਿਰੁੱਧ ਲਾਭਾਂ ਅਤੇ ਚੁਣੌਤੀਆਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਕਿ ਕੀ ਉਹਨਾਂ ਨੂੰ ਉਹਨਾਂ ਦੀਆਂ ML ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਮੁਫਤ-ਟੂ-ਵਰਤੋਂ ਵਾਲੇ ਡੇਟਾ ਦੀ ਚੋਣ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।

ਲਾਭ

  • ਡਾਟਾ ਆਸਾਨੀ ਨਾਲ ਐਕਸੈਸ ਕਰਨ ਲਈ ਉਪਲਬਧ ਹੈ. ਡੇਟਾ ਉਪਲਬਧਤਾ ਦੇ ਕਾਰਨ, ਐਪਲੀਕੇਸ਼ਨ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਦੀ ਲਾਗਤ ਕਾਫ਼ੀ ਘੱਟ ਗਈ ਹੈ.
  • ਐਪਲੀਕੇਸ਼ਨ ਲਈ ਡੇਟਾ ਇਕੱਠਾ ਕਰਨ ਵਿੱਚ ਖਰਚਿਆ ਸਮਾਂ ਅਤੇ ਮਿਹਨਤ ਕਾਫ਼ੀ ਘੱਟ ਜਾਂਦੀ ਹੈ ਕਿਉਂਕਿ ਡੇਟਾਸੈਟ ਆਸਾਨੀ ਨਾਲ ਉਪਲਬਧ ਹੁੰਦਾ ਹੈ।
  • ਇੱਥੇ ਬਹੁਤ ਸਾਰੇ ਭਾਈਚਾਰਕ ਫੋਰਮਾਂ ਜਾਂ ਮਦਦ ਸਮੂਹ ਹਨ ਜੋ ਡੇਟਾਸੈਟ ਨੂੰ ਸਿੱਖਣ, ਅਨੁਕੂਲਿਤ ਕਰਨ ਅਤੇ ਅਨੁਕੂਲ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ।
  • ਓਪਨ-ਸੋਰਸ ਡੇਟਾਸੈਟ ਦਾ ਇੱਕ ਵੱਡਾ ਫਾਇਦਾ ਇਹ ਹੈ ਕਿ ਇਹ ਕਸਟਮਾਈਜ਼ੇਸ਼ਨ 'ਤੇ ਕੋਈ ਪਾਬੰਦੀਆਂ ਨਹੀਂ ਲਾਉਂਦਾ ਹੈ।
  •   ਓਪਨ-ਸਰੋਤ ਡੇਟਾ ਆਬਾਦੀ ਦੇ ਇੱਕ ਵੱਡੇ ਹਿੱਸੇ ਲਈ ਪਹੁੰਚਯੋਗ ਹੈ, ਜਿਸ ਨਾਲ ਮੁਦਰਾ ਰੁਕਾਵਟਾਂ ਦੇ ਬਿਨਾਂ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਨਵੀਨਤਾ ਸੰਭਵ ਹੋ ਜਾਂਦੀ ਹੈ।

ਚੁਣੌਤੀ

  • ਪ੍ਰੋਜੈਕਟ ਲਈ ਖਾਸ ਡੇਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਜਾਣਕਾਰੀ ਦੇ ਗੁੰਮ ਹੋਣ ਅਤੇ ਉਪਲਬਧ ਡੇਟਾ ਦੀ ਗਲਤ ਵਰਤੋਂ ਦੀ ਸੰਭਾਵਨਾ ਹੈ।
  • ਮਲਕੀਅਤ ਡੇਟਾ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਵਿੱਚ ਸਮਾਂ ਅਤੇ ਮਿਹਨਤ ਲੱਗਦੀ ਹੈ ਅਤੇ ਇਹ ਮਹਿੰਗਾ ਹੈ
  • ਹਾਲਾਂਕਿ ਡੇਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ ਆਸਾਨ ਹੋ ਸਕਦਾ ਹੈ, ਗਿਆਨ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਲਾਗਤ ਸ਼ੁਰੂਆਤੀ ਫਾਇਦੇ ਤੋਂ ਵੱਧ ਹੋ ਸਕਦੀ ਹੈ।
  • ਹੋਰ ਡਿਵੈਲਪਰ ਵੀ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਲਈ ਉਸੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ।
  • ਇਹ ਡੇਟਾਸੈੱਟ ਸੁਰੱਖਿਆ ਉਲੰਘਣਾਵਾਂ, ਗੋਪਨੀਯਤਾ ਅਤੇ ਸਹਿਮਤੀ ਲਈ ਬਹੁਤ ਜ਼ਿਆਦਾ ਕਮਜ਼ੋਰ ਹਨ।

ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਲਈ 15 ਸਭ ਤੋਂ ਵਧੀਆ ਲਿਖਾਈ ਅਤੇ OCR ਡੇਟਾਸੈੱਟ

Open-source ocr datasets

ਟੈਕਸਟ ਮਾਨਤਾ ਐਪਲੀਕੇਸ਼ਨ ਵਿਕਾਸ ਲਈ ਬਹੁਤ ਸਾਰੇ ਓਪਨ-ਸੋਰਸ ਡੇਟਾਸੈਟ ਉਪਲਬਧ ਹਨ। ਸਭ ਤੋਂ ਵਧੀਆ 15 ਵਿੱਚੋਂ ਕੁਝ ਹਨ

  1. ICDAR ਡਾਟਾਸੈੱਟ

    ਦਸਤਾਵੇਜ਼ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਮਾਨਤਾ ਲਈ ਅੰਤਰਰਾਸ਼ਟਰੀ ਕਾਨਫਰੰਸ ਵਿੱਚ ਐਨੋਟੇਸ਼ਨਾਂ ਦੇ ਨਾਲ, 229 ਸਿਖਲਾਈ ਅਤੇ 233 ਟੈਸਟਿੰਗ ਚਿੱਤਰਾਂ ਦਾ ਭੰਡਾਰ ਹੈ। ਇਹ ਟੈਕਸਟ ਖੋਜ ਮੁਲਾਂਕਣ ਲਈ ਇੱਕ ਬੈਂਚਮਾਰਕ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ।

  2. IIIT 5K-ਵਰਡ ਡਾਟਾਸੈੱਟ

    ਗੂਗਲ ਚਿੱਤਰ ਖੋਜ ਤੋਂ ਲਿਆ ਗਿਆ, IIIT 5K-ਸ਼ਬਦ ਸਾਈਨ ਬੋਰਡਾਂ, ਬਿਲਬੋਰਡਾਂ, ਨੰਬਰ ਪਲੇਟਾਂ ਅਤੇ ਪੋਸਟਰਾਂ ਤੋਂ ਸ਼ਬਦਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ। ਇਸ ਵਿੱਚ 5K ਕ੍ਰੌਪ ਕੀਤੇ ਸ਼ਬਦ ਚਿੱਤਰ ਹਨ ਜੋ ਇਸਨੂੰ ਉਪਲਬਧ ਟੈਕਸਟ ਮਾਨਤਾ ਡੇਟਾਸੈਟਾਂ ਦੇ ਸਭ ਤੋਂ ਵਿਆਪਕ ਸੰਗ੍ਰਹਿ ਵਿੱਚੋਂ ਇੱਕ ਬਣਾਉਂਦੇ ਹਨ।

  3. NIST ਡਾਟਾਬੇਸ

    NIST ਜਾਂ ਨੈਸ਼ਨਲ ਇੰਸਟੀਚਿਊਟ ਆਫ਼ ਸਾਇੰਸ 3600 ਤੋਂ ਵੱਧ ਅੱਖਰ ਚਿੱਤਰਾਂ ਦੇ ਨਾਲ 810,000 ਤੋਂ ਵੱਧ ਹੱਥ ਲਿਖਤਾਂ ਦੇ ਨਮੂਨਿਆਂ ਦਾ ਇੱਕ ਮੁਫਤ-ਟੂ-ਵਰਤਣ ਸੰਗ੍ਰਹਿ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ।

  4. MNIST ਡਾਟਾਬੇਸ

    NSIT ਦੇ ਵਿਸ਼ੇਸ਼ ਡੇਟਾਬੇਸ 1 ਅਤੇ 3 ਤੋਂ ਲਿਆ ਗਿਆ, MNIST ਡੇਟਾਬੇਸ ਸਿਖਲਾਈ ਸੈੱਟ ਲਈ 60,000 ਹੱਥ ਲਿਖਤ ਸੰਖਿਆਵਾਂ ਅਤੇ ਟੈਸਟ ਸੈੱਟ ਲਈ 10,000 ਉਦਾਹਰਣਾਂ ਦਾ ਸੰਕਲਿਤ ਸੰਗ੍ਰਹਿ ਹੈ। ਇਹ ਓਪਨ-ਸੋਰਸ ਡੇਟਾਬੇਸ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ 'ਤੇ ਘੱਟ ਸਮਾਂ ਬਿਤਾਉਂਦੇ ਹੋਏ ਪੈਟਰਨਾਂ ਨੂੰ ਪਛਾਣਨ ਲਈ ਟ੍ਰੇਨ ਮਾਡਲਾਂ ਦੀ ਮਦਦ ਕਰਦਾ ਹੈ।

  5. ਟੈਕਸਟ ਖੋਜ

    ਇੱਕ ਓਪਨ-ਸੋਰਸ ਡੇਟਾਬੇਸ, ਟੈਕਸਟ ਡਿਟੈਕਸ਼ਨ ਡੇਟਾਸੈਟ ਵਿੱਚ ਸਾਈਨਬੋਰਡਾਂ, ਦਰਵਾਜ਼ੇ ਦੀਆਂ ਪਲੇਟਾਂ, ਸਾਵਧਾਨੀ ਪਲੇਟਾਂ ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਦੇ ਲਗਭਗ 500 ਅੰਦਰੂਨੀ ਅਤੇ ਬਾਹਰੀ ਚਿੱਤਰ ਸ਼ਾਮਲ ਹਨ।

  6. ਸਟੈਨਫੋਰਡ ਓ.ਸੀ.ਆਰ

    ਸਟੈਨਫੋਰਡ ਦੁਆਰਾ ਪ੍ਰਕਾਸ਼ਿਤ, ਇਹ ਮੁਫਤ-ਟੂ-ਵਰਤਣ ਵਾਲਾ ਡੇਟਾਸੈਟ MIT ਸਪੋਕਨ ਲੈਂਗਵੇਜ ਸਿਸਟਮ ਗਰੁੱਪ ਦੁਆਰਾ ਇੱਕ ਹੱਥ ਲਿਖਤ ਸ਼ਬਦ ਸੰਗ੍ਰਹਿ ਹੈ।

  7. ਡੀਡੀਆਈ-100

    ਨਹੀਂ ਤਾਂ ਡਿਸਟੌਰਟਿਡ ਡੌਕੂਮੈਂਟ ਇਮੇਜਜ਼ ਡੇਟਾਸੈਟ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, DDI-100 6658 ਪੰਨਿਆਂ ਤੋਂ ਵੱਧ ਦਸਤਾਵੇਜ਼ਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ ਜਿਸ ਵਿੱਚ ਕਈ ਜਿਓਮੈਟ੍ਰਿਕ ਪੈਟਰਨ ਅਤੇ ਵਿਗਾੜ ਲਾਗੂ ਕੀਤੇ ਗਏ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, DDI-100 ਵਿੱਚ 99870 ਤੋਂ ਵੱਧ ਚਿੱਤਰ, ਸਟੈਂਪ ਮਾਸਕ, ਟੈਕਸਟ ਮਾਸਕ ਅਤੇ ਬਾਊਂਡਿੰਗ ਬਾਕਸ ਹਨ।

  8. RoadText-1K

    ਸਭ ਤੋਂ ਵੱਡੇ ਡੇਟਾਸੈਟਾਂ ਵਿੱਚੋਂ ਇੱਕ ਜੋ ਕਿ ਵੀਡੀਓਜ਼ ਵਿੱਚ ਟੈਕਸਟ ਦਾ ਪਤਾ ਲਗਾਉਣ ਲਈ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ, RoadText-1K ਵਿੱਚ 1000 ਵੀਡੀਓ ਕਲਿੱਪ ਸ਼ਾਮਲ ਹਨ ਜੋ ਹਰ ਵੀਡੀਓ ਫ੍ਰੇਮ ਵਿੱਚ ਬਾਊਂਡਿੰਗ ਬਾਕਸ ਟੈਕਸਟ ਐਨੋਟੇਸ਼ਨ ਅਤੇ ਟੈਕਸਟ ਦੇ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਨਾਲ ਸੰਪੂਰਨ ਹਨ।

  9. MSRA-TD500

    300 ਸਿਖਲਾਈ ਅਤੇ 200 ਟੈਕਸਟ ਚਿੱਤਰ ਸ਼ਾਮਲ ਹਨ; MSRA-TD500 ਵਿੱਚ ਚੀਨੀ ਅਤੇ ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਾਵਾਂ ਦੇ ਅੱਖਰ ਸ਼ਾਮਲ ਹਨ ਅਤੇ ਵਾਕ ਪੱਧਰ 'ਤੇ ਐਨੋਟੇਟ ਕੀਤੇ ਗਏ ਹਨ।

  10. MJSynth ਡਾਟਾਸੈੱਟ

    ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤੇ ਗਏ, ਇਸ ਸ਼ਬਦ ਡੇਟਾਸੈਟ ਵਿੱਚ 9 ਹਜ਼ਾਰ ਤੋਂ ਵੱਧ ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਾ ਦੇ ਸ਼ਬਦਾਂ ਨੂੰ ਕਵਰ ਕਰਨ ਵਾਲੇ ਲਗਭਗ 90 ਮਿਲੀਅਨ ਸਿੰਥੈਟਿਕ ਤੌਰ 'ਤੇ ਤਿਆਰ ਕੀਤੇ ਚਿੱਤਰ ਹਨ।

  11. ਸੜਕ ਦ੍ਰਿਸ਼ ਟੈਕਸਟ

    ਗੂਗਲ ਸਟਰੀਟ ਵਿਊ ਚਿੱਤਰਾਂ ਤੋਂ ਇਕੱਠੇ ਕੀਤੇ ਗਏ, ਇਸ ਡੇਟਾਸੈਟ ਵਿੱਚ ਮੁੱਖ ਤੌਰ 'ਤੇ ਬੋਰਡਾਂ ਅਤੇ ਗਲੀ-ਪੱਧਰ ਦੇ ਚਿੰਨ੍ਹਾਂ ਦੇ ਟੈਕਸਟ ਖੋਜ ਚਿੱਤਰ ਹਨ।

  12. ਦਸਤਾਵੇਜ਼ ਡਾਟਾਬੇਸ

    ਦਸਤਾਵੇਜ਼ ਡੇਟਾਬੇਸ 941 ਲੇਖਕਾਂ ਦੇ 189 ਹੱਥ ਲਿਖਤ ਦਸਤਾਵੇਜ਼ਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ, ਜਿਸ ਵਿੱਚ ਟੇਬਲ, ਫਾਰਮੂਲੇ, ਡਰਾਇੰਗ, ਚਿੱਤਰ, ਸੂਚੀਆਂ ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਸ਼ਾਮਲ ਹੈ।

  13. ਗਣਿਤ ਦੇ ਸਮੀਕਰਨ

    ਗਣਿਤ ਸਮੀਕਰਨ ਇੱਕ ਡੇਟਾਬੇਸ ਹੈ ਜਿਸ ਵਿੱਚ 101 ਗਣਿਤਿਕ ਚਿੰਨ੍ਹ ਅਤੇ 10,000 ਸਮੀਕਰਨ ਸ਼ਾਮਲ ਹਨ।

  14. ਸੜਕ ਦ੍ਰਿਸ਼ ਘਰ ਦੇ ਨੰਬਰ

    ਗੂਗਲ ਸਟਰੀਟ ਵਿਊ ਤੋਂ ਪ੍ਰਾਪਤ ਕੀਤਾ ਗਿਆ, ਇਹ ਸਟਰੀਟ ਵਿਊ ਹਾਊਸ ਨੰਬਰ ਇੱਕ ਡੇਟਾਬੇਸ ਹੈ ਜਿਸ ਵਿੱਚ 73257 ਸਟ੍ਰੀਟ ਹਾਊਸ ਨੰਬਰ ਅੰਕ ਹਨ।

  15. ਕੁਦਰਤੀ ਵਾਤਾਵਰਣ OCR

    ਨੈਚੁਰਲ ਐਨਵਾਇਰਮੈਂਟ OCR, ਦੁਨੀਆ ਭਰ ਵਿੱਚ ਲਗਭਗ 660 ਚਿੱਤਰਾਂ ਅਤੇ 5238 ਟੈਕਸਟ ਐਨੋਟੇਸ਼ਨਾਂ ਦਾ ਇੱਕ ਡੇਟਾਸੈਟ ਹੈ।

ਟੈਕਸਟ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ML ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਇਹ ਕੁਝ ਚੋਟੀ ਦੇ ਓਪਨ-ਸਰੋਤ ਡੇਟਾਸੈੱਟ ਸਨ। ਤੁਹਾਡੇ ਕਾਰੋਬਾਰ ਅਤੇ ਐਪਲੀਕੇਸ਼ਨ ਲੋੜਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਇੱਕ ਚੁਣਨ ਵਿੱਚ ਸਮਾਂ ਅਤੇ ਮਿਹਨਤ ਲੱਗ ਸਕਦੀ ਹੈ। ਹਾਲਾਂਕਿ, ਤੁਹਾਨੂੰ ਉਚਿਤ ਇੱਕ 'ਤੇ ਫੈਸਲਾ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਇਹਨਾਂ ਡੇਟਾਸੈਟਾਂ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।

ਇੱਕ ਭਰੋਸੇਮੰਦ ਅਤੇ ਕੁਸ਼ਲ ਟੈਕਸਟ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਵੱਲ ਤਰੱਕੀ ਕਰਨ ਵਿੱਚ ਤੁਹਾਡੀ ਮਦਦ ਕਰਨ ਲਈ ਸ਼ੈਪ ਹੈ - ਉੱਚ-ਰੈਂਕਿੰਗ ਤਕਨਾਲੋਜੀ ਹੱਲ ਪ੍ਰਦਾਤਾ। ਅਸੀਂ ਅਨੁਕੂਲਿਤ, ਅਨੁਕੂਲਿਤ, ਅਤੇ ਬਣਾਉਣ ਲਈ ਆਪਣੇ ਤਕਨੀਕੀ ਅਨੁਭਵ ਦਾ ਲਾਭ ਉਠਾਉਂਦੇ ਹਾਂ ਕੁਸ਼ਲ OCR ਸਿਖਲਾਈ ਡੇਟਾਸੇਟ ਵੱਖ-ਵੱਖ ਕਲਾਇੰਟ ਪ੍ਰੋਜੈਕਟਾਂ ਲਈ. ਸਾਡੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਮਝਣ ਲਈ, ਅੱਜ ਹੀ ਸਾਡੇ ਨਾਲ ਸੰਪਰਕ ਕਰੋ।

ਸਮਾਜਕ ਸ਼ੇਅਰ