Documentation
(C) IBM Corp. 1996, 2000

DB2 Text Extender
°ü¸® ¹× ÇÁ·Î±×·¡¹Ö


Ž»ö À¯Çü

Ž»öÇÒ ÅØ½ºÆ®°¡ Æ÷ÇÔµÈ Ä÷³¿¡ ¾ð¾îÀû Á¤È®ÇÑ ¹× NgramÀÇ »öÀÎ À¯Çü Áß Çϳª¿Í ´Ù¾çÇÑ ¿É¼ÇÀ» ÁöÁ¤ÇÒ ¼ö ÀÖ½À´Ï´Ù. DB2 Text Extender¿¡ ÀÇÇØ »ç¿ëµÉ ¸ðµç Ä÷³À» ÁغñÇϱâ Àü¿¡, ÀÛ¼ºÇÒ »öÀÎ À¯ÇüÀ» °áÁ¤ÇØ¾ß ÇÕ´Ï´Ù. °¢ »öÀÎ À¯ÇüÀÌ ¾ð¾î 󸮿¡ ¾î¶² ¿µÇâÀ» ¹ÌÄ¡´Â Áö¿¡ ´ëÇÑ ÀÚ¼¼ÇÑ ¼¼ºÎ ¼³¸íÀº ¾ð¾î ¹× Á¤È®ÇÑ »öÀÎÀ» À§ÇÑ ¾ð¾î 󸮸¦ ÀÐÀ¸½Ê½Ã¿À.
¿ä¾à

  • ¾ð¾îÀûÀÎ ´Ü¾î º¯È­Çü Ž»öÀÇ °æ¿ì, ¾ð¾î »öÀÎÀ» »ç¿ëÇϽʽÿÀ.

    Á¤±ÔÈ­¿Í ½ºÅ×¹Ö(stemming)¿¡ ±âÁØÇÏ¿© ±×¸®°í »çÀü »ç¿ë¿¡ ±âÁØÇÏ¿© ´Ü¾î º¯È­ÇüÀ» ã½À´Ï´Ù. ÃÖ¼Ò µð½ºÅ© °ø°£À» »ç¿ëÇÕ´Ï´Ù.

  • Á¤È®ÇÑ Å½»öÀÇ °æ¿ì, Á¤È®ÇÑ »öÀÎÀ» »ç¿ëÇϽʽÿÀ.

    ÀÔ·ÂÇÑ ±×´ë·Î ¿ë¾î¸¦ ã½À´Ï´Ù. »öÀÎ ÀÛ¼º°ú Ž»öÀÌ ºü¸¨´Ï´Ù. º¸´Ù ¸¹Àº µð½ºÅ© °ø°£À» »ç¿ëÇÕ´Ï´Ù. NORMALIZEDÀÇ °æ¿ì, Ž»ö¿¡¼­ ´ë¼Ò¹®ÀÚ°¡ ±¸º°µË´Ï´Ù.

  • ¹®ÀÚ º¯È­Çü Ž»öÀÇ °æ¿ì, Ngram »öÀÎÀ» »ç¿ëÇϽʽÿÀ.

    öÀÚ°¡ Ʋ·Áµµ ´Ü¾î¸¦ ã½À´Ï´Ù. ´ë¼Ò¹®ÀÚ ±¸º° Ž»öÀ» À§ÇØ CASE_ENABLEDÇßÀ» °æ¿ì, »öÀÎÀº º¸´Ù ¸¹Àº °ø°£À» »ç¿ëÇϰí Ž»ö ½Ã°£ÀÌ ±æ¾îÁý´Ï´Ù.

  • DBCS ¹®¼­¿¡¼­ Ž»öÀÇ °æ¿ì, Ngram »öÀÎÀ» »ç¿ëÇϽʽÿÀ.

    DBCS ¹®¼­ÀÇ À¯ÀÏÇÑ ¼±ÅÃÇ׸ñÀÌÁö¸¸, TDS À¯ÇüÀÇ SBCS ¹®¼­¿¡¼­µµ »ç¿ëÇÒ ¼ö ÀÖ½À´Ï´Ù.

DB2 Text Extender´Â ¸ðµç »öÀÎ À¯Çü¿¡¼­ »ç¿ëÇÒ ¼ö´Â ¾øÁö¸¸ ´Ù¾çÇÑ Å½»ö ¿É¼ÇÀ» Á¦°øÇÕ´Ï´Ù. »ç¿ëÇÒ »öÀÎ À¯ÇüÀ» °áÁ¤Çϱâ Àü¿¡ Ç¥ 7°ú Ç¥ 8¸¦ ÂüÁ¶ÇϽʽÿÀ.

¾ð¾î Ž»ö

¾ð¾î »öÀÎÀÇ °æ¿ì, »öÀÎ ÀÛ¼ºÀ» À§ÇØ °¢ ¹®¼­ÀÇ ÅØ½ºÆ®¸¦ ºÐ¼®ÇÒ ¶§ ¾ð¾î 󸮰¡ Àû¿ëµË´Ï´Ù. »öÀο¡ ÀúÀåµÇ±â Àü¿¡ ´Ü¾î´Â ±âº»ÇüÀ¸·Î Ãà¾àµÈ´Ù´Â ÀǹÌÀÔ´Ï´Ù. ¿¹¸¦ µé¾î, "mice"¶õ ¿ë¾î´Â mouse·Î ÀúÀåµË´Ï´Ù.

¾ð¾î »öÀο¡ ´ëÇÑ Á¶È¸ÀÇ °æ¿ì, ÅØ½ºÆ® »öÀÎÀ» Ž»öÇϱâ Àü¿¡ µ¿ÀÏÇÑ ¾ð¾î 󸮰¡ ÇØ´ç Ž»ö ¿ë¾î¿¡ Àû¿ëµË´Ï´Ù. ±×·¯¹Ç·Î, "mice"¸¦ Ž»öÇϸé, Ž»öÀ» ½ÃÀÛÇϱâ Àü¿¡ ±âº» ÇüÅÂÀÎ mouse·Î Ãà¾àµË´Ï´Ù. Ç¥ 17¿¡¼­´Â ¾ð¾î »öÀÎ »ç¿ë½Ã ¿ë¾î°¡ ¾î¶»°Ô »öÀÎ ÀÛ¼ºÀ» À§ÇØ ÃßÃâµÇ´Â Áö¸¦ ¿ä¾àÇÕ´Ï´Ù.

ÀÌ »öÀÎ À¯ÇüÀÇ ÀÌÁ¡Àº ¾î¶² Ž»ö ¿ë¾î º¯È­Çüµµ »öÀÎ ÀÛ¼ºµÈ ÅØ½ºÆ® ¹®¼­¿¡¼­ »ý±â´Â ´Ù¸¥ ¸ðµç º¯È­Çü°ú ÀÏÄ¡ÇÑ´Ù´Â °ÍÀÔ´Ï´Ù. Ž»ö ¿ë¾î mouse´Â ¹®¼­ ¿ë¾î "mouse", "mice", "MICE"(´ë¹®ÀÚ) µî°ú ÀÏÄ¡ÇÕ´Ï´Ù. ºñ½ÁÇϰÔ, Ž»ö ¿ë¾î Mice´Â °°Àº ¹®¼­ ¿ë¾î¿Í ÀÏÄ¡ÇÕ´Ï´Ù.

ÀÌ »öÀÎ À¯ÇüÀº ÃÖ¼ÒÇÑÀÇ µð½ºÅ© °ø°£ÀÌ ÇÊ¿äÇÕ´Ï´Ù. ±×·¯³ª, »öÀÎ ÀÛ¼º ¹× Ž»öÀº Á¤È®ÇÑ »öÀÎÀÇ °æ¿ì º¸´Ù ½Ã°£ÀÌ ´õ ¿À·¡ °É¸± ¼ö ÀÖ½À´Ï´Ù.

»ç¿ë °¡´ÉÇÑ ¾ð¾î ó¸® À¯ÇüÀº ¹®¼­ÀÇ ¾ð¾î¿¡ µû¶ó ´Þ¶óÁý´Ï´Ù. ´ÙÀ½Àº ÇØ´ç À¯Çü ¸ñ·ÏÀÔ´Ï´Ù.

Á¤È®ÇÑ Å½»ö

Á¤È®ÇÑ »öÀÎ(precise index)¿¡¼­, ÅØ½ºÆ® ¹®¼­ÀÇ ¿ë¾î´Â ¹®¼­¿¡ ³ªÅ¸³ª´Â ±×´ë·Î Á¤È®ÇÏ°Ô »öÀÎ ÀÛ¼ºµË´Ï´Ù. ¿¹¸¦ µé¾î, Ž»ö ¿ë¾î mouse¸¦ »ç¿ëÇÏ¿© "mouse"´Â ãÀ» ¼ö ÀÖÁö¸¸ "mice"¿Í "Mouse"¸¦ ãÀ» ¼ö´Â ¾ø´Âµ¥, Á¤È®ÇÑ »öÀο¡¼­ Ž»öÀº ´ë¼Ò¹®ÀÚ¸¦ ±¸º°Çϱ⠶§¹®ÀÔ´Ï´Ù.

Á¶È¸¿¡¼­ µ¿ÀÏÇÑ Ã³¸®°¡ Á¶È¸ ¿ë¾î¿¡ Àû¿ëµÇ¾î »öÀο¡ ÀÖ´ø ¿ë¾î¿Í ºñ±³µË´Ï´Ù. À̰ÍÀº ¹ß°ßµÇ´Â ¿ë¾î°¡ Ž»ö ¿ë¾î¿Í Á¤È®È÷ ÀÏÄ¡ÇÑ´Ù´Â ÀǹÌÀÔ´Ï´Ù. ¸¶½ºÅ· ¹®ÀÚ¸¦ »ç¿ëÇÏ¿© Ž»öÀ» È®ÀåÇÒ ¼ö ÀÖ½À´Ï´Ù. ¿¹¸¦ µé¾î, Ž»ö ¿ë¾î experiment%´Â "experimental", "experimented" µîµîÀ» ãÀ» ¼ö ÀÖ½À´Ï´Ù.

Ç¥ 18¿¡¼­´Â Á¤È®ÇÑ »öÀÎÀ» »ç¿ëÇÒ ¶§ ¹®¼­ ÅØ½ºÆ®¿¡¼­ »öÀÎ¿ë ¿ë¾î°¡ ¾î¶»°Ô ÃßÃâµÇ´Â Áö¿¡ ´ëÇÑ ¿©·¯ ¿¹¸¦ º¸¿©ÁÝ´Ï´Ù.

ÀÌ »öÀÎ À¯ÇüÀÇ ÀÌÁ¡Àº Ž»öÀÌ ´õ Á¤È®ÇÏ°í »öÀÎ ÀÛ¼º ¹× °Ë»öÀÌ ´õ ºü¸£´Ù´Â °ÍÀÔ´Ï´Ù. ¸ðµç ¿ë¾îÀÇ °¢±â ´Ù¸¥ ÇüÅ¿¡ ´ëÇØ öÀÚ°¡ »öÀÎ ÀÛ¼ºµÇ¾ú±â ¶§¹®¿¡, ¾ð¾î »öÀÎ °æ¿ìº¸´Ù µð½ºÅ© °ø°£ÀÌ ´õ ¸¹ÀÌ ÇÊ¿äÇÕ´Ï´Ù.

Á¤È®ÇÑ »öÀοë ÅØ½ºÆ® ¹®¼­ÀÇ »öÀÎ ÀÛ¼º ÀÛ¾÷¿¡¼­ »ç¿ëµÇ´Â ¾ð¾î 󸮴 ´ÙÀ½°ú °°½À´Ï´Ù.

´Ü¾î ¹× ¹®Àå ºÐ¸®

ºñÀÇ¹Ì¼Ò ÇÊÅ͸µ.

DBCS ¹®¼­ÀÇ ÆÛÁö Ž»ö ¶Ç´Â Ž»ö

Ngram »öÀÎÀº ¹®ÀÚ ÁýÇÕÀ» ±¸¹®ºÐ¼®ÇÏ¿© ÅØ½ºÆ®¸¦ ºÐ¼®ÇÕ´Ï´Ù. ÀÌ·± ºÐ¼®Àº »çÀü¿¡ ±Ù°ÅÇÏÁö ¾Ê½À´Ï´Ù.

ÅØ½ºÆ®¿¡ DBCS ¹®ÀÚ°¡ µé¾î ÀÖÀ¸¸é, Ngram »öÀÎÀ» »ç¿ëÇØ¾ß ÇÕ´Ï´Ù. ´Ù¸¥ »öÀÎ À¯ÇüÀº DBCS ¹®ÀÚ¸¦ Áö¿øÇÏÁö ¾Ê½À´Ï´Ù.

ÀÌ »öÀÎ À¯ÇüÀº "ÆÛÁö" Ž»öÀ» Áö¿øÇϸç ÁöÁ¤µÈ Ž»ö ¿ë¾î¿Í À¯»çÇÑ ¹®ÀÚ¿­À» ãÀ» ¼ö ÀÖ½À´Ï´Ù. ¿¹¸¦ µé¾î, Extender¿¡ ´ëÇÑ Å½»ö¿¡¼­ À߸øµÈ öÀÚÀÎ Extendrrs¸¦ ã½À´Ï´Ù. ÇÊ¿äÇÑ À¯»ç¼º Á¤µµ¸¦ ÁöÁ¤ÇÒ ¼öµµ ÀÖ½À´Ï´Ù.
ÁÖ:fuzzy Ž»öÀ» »ç¿ëÇÒ °æ¿ì¿¡µµ ù¹øÂ° ¼¼ ¹®ÀÚ´Â ¹Ýµå½Ã ÀÏÄ¡ÇØ¾ß ÇÕ´Ï´Ù.

Ngram »öÀο¡¼­ ´ë¼Ò¹®ÀÚ ±¸º° Ž»öÀ» ÇÏ·Á¸é, Á¶È¸¿¡¼­ PRECISE FORM OF Ű¿öµåÀÇ ÁöÁ¤Àº ÃæºÐÄ¡ ¾Ê½À´Ï´Ù. ÀÌ´Â Ngram »öÀÎÀº º¸Åë »öÀÎÈ­µÈ ¹®ÀÚÀÇ ´ë¼Ò¹®ÀÚ¸¦ ±¸º°ÇÏÁö ¾Ê±â ¶§¹®ÀÔ´Ï´Ù. ÇÏÁö¸¸, »öÀÎÀ» ÀÛ¼ºÇÒ ¶§ CASE_ENABLED ¿É¼ÇÀ» ÁöÁ¤ÇÏ¿© Ngram »öÀÎÀ» ´ë¼Ò¹®ÀÚ°¡ ±¸º°µÇµµ·Ï ¸¸µé ¼ö ÀÖ½À´Ï´Ù. ±×·± ´ÙÀ½, Á¶È¸¿¡¼­ PRECISE FORM OF Ű¿öµå¸¦ ÁöÁ¤ÇϽʽÿÀ.

CASE_ENABLED ¿É¼ÇÀ» »ç¿ëÇϸé, »öÀÎÀÌ ´õ ¸¹Àº °ø°£À» ÇÊ¿ä·Î Çϰí Ž»ö ½Ã°£ÀÌ ´õ ±æ¾îÁú ¼ö ÀÖ½À´Ï´Ù.

Ngram »öÀÎÀÌ Áö¿øÇÏ´Â CCSIDÀÇ ¸ñ·ÏÀº CCSID¸¦ º¸½Ê½Ã¿À. Ngram »öÀÎÀº ¿ø½Ã CCSIDÀÇ ¸ñ·ÏÀ» Áö¿øÇÕ´Ï´Ù. ¸ðµç ±âŸ CCSIDÀÇ °æ¿ì, µ¥ÀÌÅÍ´Â ÀÌ CCSID¿¡¼­ UTF8·Î ¸ÊµË´Ï´Ù.

Ngram »öÀÎÀº DBCS ¹®¼­ »öÀÎ ÀÛ¼ºÀ» À§ÇØ °í¾ÈµÇ¾úÁö¸¸, SBCS ¹®¼­¿¡µµ »ç¿ëÇÒ ¼ö ÀÖ½À´Ï´Ù. ÇÏÁö¸¸ TDS ¹®¼­¸¸ Áö¿øÇÕ´Ï´Ù.

Ž»ö ±¸¹® ¿É¼ÇÀÌ ¸ðµÎ Áö¿øµÇÁö´Â ¾Ê´Â´Ù´Â »ç½Ç¿¡µµ ÁÖÀÇÇϽʽÿÀ. Ž»ö ÀμöÀÇ ±¸¹®ÀÇ ±ÔÄ¢ ¿ä¾à°ú Á¦ÇÑ»çÇ×À» ÂüÁ¶ÇϽʽÿÀ.

»öÀÎ À¯Çü º¯°æ

»ç¿ë ÁßÀÎ »öÀÎÀÌ ÀûÇÕÇÏÁö ¾Ê´Ù°í »ý°¢µÇ¸é, ¸ÕÀú ÅØ½ºÆ® Ä÷³À̳ª ÅØ½ºÆ® Å×À̺íÀ» »ç¿ë ºÒ°¡´ÉÈ­ÇÏ¿© »öÀÎÀ» »èÁ¦ÇÑ µÚ, ÅØ½ºÆ® Ä÷³À̳ª ÅØ½ºÆ® Å×À̺íÀ» ´Ù½Ã »ç¿ë °¡´ÉÈ­ÇÏ¿© »öÀÎÀ» ÀçÀÛ¼ºÇϽʽÿÀ.


[ ÆäÀÌÁöÀÇ ¸Ç À§ | ÀÌÀü ÆäÀÌÁö | ´ÙÀ½ ÆäÀÌÁö | ¸ñÂ÷ | »öÀÎ ]